Künstliche Intelligenz: Geheime Mathematikaufgaben blamieren KI-Modelle
In den zurückliegenden Monaten gab es immer wieder Schlagzeilen, dass KI-Modelle erstaunliche mathematische Fähigkeiten haben – unter anderem haben die Rechenkünstler aus Silizium bei einer Mathematik-Olympiade eine Silbermedaille ergattert. Auch andere Datensätze mit Problemstellungen, darunter MATH und GSM8K meisterten KI-Programme. Doch nun hat Epoch AI, ein Zusammenschluss von Fachleuten, die sich mit der Entwicklung künstlicher Intelligenz beschäftigen, ein ernüchterndes Ergebnis vorgestellt: Führende KI-Programme, darunter GPT-4o und Claude 3.5 Sonnet, konnten – selbst mit Zugriff auf Programmierschnittstellen, um ihre Ergebnisse zu testen – weniger als zwei Prozent einer anspruchsvollen Mathematikaufgabensammlung lösen.
Mehr als 60 Mathematikerinnen und Mathematiker von führenden Universitäten haben hunderte Aufgaben erdacht, die sie in einem Datensatz namens »FrontierMath« gesammelt haben. Die Aufgaben umfassen unterschiedliche mathematische Bereiche, von Zahlentheorie bis hin zur algebraischen Geometrie. »Sie sind extrem anspruchsvoll«, sagte der renommierte Mathematiker Terence Tao, der mit der Fields-Medaille eine der höchsten Auszeichnungen des Fachs innehat. »Ich denke, KI-Modelle werden noch einige Jahre daran zu knabbern haben.« Anders als bei ähnlichen Datensätzen üblich, soll FrontierMath nicht veröffentlicht werden.
Wettbewerbe wie die Mathematik-Olympiade »stützen sich nicht auf allzu spezialisiertes Wissen«, erklärt der Mathematiker Evan Chen in seinem Blog. Die Aufgaben sind in der Regel so gestaltet, dass man eine kreative Idee braucht, um sie zu lösen. Die Berechnungen an sich sind meist nicht sehr umfangreich oder technisch anspruchsvoll. Die letzten beiden Punkte seien bei den Problemen von FrontierMath hingegen anders, erklärt er. »Die Aufgaben testen ebenfalls eher Einsichten, als dass sie Standardtechniken oder -wissen abfragen, aber es wird auch angenommen, dass der Proband Zugang zu einer Python-Konsole und einer Menge Referenztexten hat.«
Damit KI-Modelle nicht darauf trainiert werden, sollen die Aufgaben künftig weiterhin unter Verschluss bleiben. Somit können die mathematischen Probleme als Maßstab dienen, um die Fähigkeiten von KI-Modellen zu bewerten, so die Hoffnung von Epoch AI. Wer dennoch neugierig ist: Die bei ArXiv erschienene Arbeit enthält ein paar zufällig ausgewählte Beispielaufgaben, mit denen man seine mathematischen Fähigkeiten unter Beweis stellen kann. Schlagen Sie die führenden KI-Modelle?
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.