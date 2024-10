Ein Team aus sechs bei Apple angestellten KI-Forschern hat in einem neuen Bericht die Fähigkeiten großer KI-Sprachmodelle, sogenannter LLMs, zur mathematischen Problemlösung unter die Lupe genommen.

Im Fokus der Untersuchung stand dabei die Resultate gängiger Testverfahren wie dem GSM8K-Benchmark, dessen Aussagekraft die Forscher infrage stellen. Der GSM8K-Benchmark wird häufig genutzt, um die mathematischen Fähigkeiten moderner KI-Modelle anhand eines Fragenkataloges auf Grundschulniveau zu bewerten.

Obwohl sich die Leistung der untersuchten Modelle in den letzten Jahren kontinuierlich verbessert hat, bleibt unklar, ob dies auf echte Fortschritte in der mathematischen Logik zurückzuführen ist.

„Mathematische Logik“ problematisch

Zudem stellten Apples Forscher fest, dass die Leistung der Modelle mit zunehmender Komplexität der Aufgaben deutlich abnimmt. Besonders auffällig sei, dass schon das Hinzufügen einer zusätzlichen Klausel, die für die Lösung irrelevant ist, zu einem Leistungseinbruch von bis zu 65 Prozent führen kann.

Dies deute darauf hin, dass die Modelle keiner echten logischen Argumentation folgen, sondern vielmehr Muster und Lösungswege nachahmen, die sie während ihres Trainings gelernt haben.

Das Paper mit dem Titel „GSM-Symbolic: Understanding the Limitations of

Mathematical Reasoning in Large Language Models“ könnt ihr bei Interesse hier aus dem Netz laden:

Neuer Benchmark zur besseren Bewertung

Die Apple-Forscher haben einen neuen Benchmark namens „GSM-Symbolic“ entwickelt. Dieser soll eine größere Vielfalt an Fragen und präzisere Bewertungsergebnisse ermöglichen.

Die Untersuchung zeigt, dass die getesteten Modelle sehr unterschiedlich auf leichte Veränderungen in den Aufgabenstellungen reagieren. Alle Modelle zeigten schlechtere Ergebnisse, sobald inhaltlich gleiche Fragen nur in ihren Zahlenwerten verändert wurden. Dies legt nahe, dass die mathematische Logik der Modelle bei minimalen Anpassungen brüchig wird.