Direkt zum Inhalt

Künstliche Intelligenz: Sprachmodelle bilden Analogien wie Menschen

Die Fähigkeit, in Analogien zu denken, ist wesentlich für menschliche Intelligenz und Kreativität. Ein Forschertrio der University of California hat die Fähigkeit von GPT-3 untersucht, neue Probleme auf Anhieb zu lösen.
Illustration eines künstlichen Hirns auf einem Computer. Digitaler Verstand. Visualisierung des Konzepts der künstlichen Intelligenz des Gehirns
Im maschinellen Lernen geht es darum, dass Systeme Muster und Bedeutungsnachbarschaften eigenständig erkennen, um menschliche Wahrnehmungsprozesse möglichst leistungsfähig nachzubilden.

Von der Lösung komplexer Probleme im Alltag über kreatives Schaffen bis zur wissenschaftlichen Erfindung wenden Menschen die Fähigkeit an, aus Ähnlichkeiten logische Schlüsse zu ziehen. Fachleute sprechen dabei auch vom »analogical reasoning«. Der Kognitionspsychologe und Dichter Keith James Holyoak, die Kognitionspsychologin Hongjing Lu sowie der Hirn- und KI-Forscher Taylor Webb von der University of California in Los Angeles (UCLA) wollten wissen, ob Maschinen so wie Menschen in der Lage sind, Aufgaben und Probleme zu lösen, mit denen sie zuvor noch nicht in Berührung gekommen sind.

Dazu konfrontierten die Forscher das KI-Sprachmodell GPT-3, das vor allem durch den Chat-Bot ChatGPT bekannt geworden ist, mit Aufgaben, die es erfordern, Analogien zu bilden, und verglichen dessen Fähigkeiten mit denen menschlicher Probanden. Das Team stellte fest, dass das Sprachmodell ein Niveau erreichte, das mit den Leistungen der menschlichen Versuchsteilnehmer übereinstimmte oder diese sogar übertraf. Davon berichtet es nun im Fachmagazin »Nature Human Behaviour«.

Für ihre Testreihe verwendeten die Forscher die Variante text-davinci003 des »Generative Pre-trained Transformer«-Modells (GPT). Menschen und Maschine mussten Zahlenmatrizen schlüssig ergänzen (»matrix reasoning«), Buchstabenreihen nach dem Ähnlichkeitsprinzip vervollständigen (»letter string analogies«) und wörtliche Analogieschlüsse ziehen. In diesen drei Aufgabenblöcken war das Sprachmodell den menschlichen Testkandidaten leicht überlegen. »GPT-3 übertraf die menschlichen Probanden bei der Untersuchung und legte über die Aufgabentypen hinweg spezifisch menschenähnliche Verhaltenssignaturen an den Tag«, heißt es im Fachartikel.

Insgesamt 57 UCLA-Collegestudenten nahmen für den Vergleich an der Testreihe teil. Als Grundlage dienten Probleme, mit denen weder die menschlichen Versuchsteilnehmer noch die Maschine zuvor in Berührung gekommen sein können, da sie eigens für die Studie entwickelt worden waren. Beim Ergänzen von Zahlen- und Mustermatrizen erreichte GPT-3 eine Genauigkeit von 80 Prozent, während die menschlichen Probanden im Schnitt knapp unter 60 Prozent blieben. Beim Vervollständigen von Buchstabenreihen lagen Mensch und Maschine beinahe gleichauf mit einem kleinen Vorsprung von GPT-3. Das Sprachmodell erreichte eine Treffsicherheit von etwa 50 Prozent.

Menschliche Fähigkeiten waren sehr breit gestreut

Allerdings schnitten die Teilnehmenden individuell betrachtet höchst unterschiedlich ab: Während manche sich komplett unfähig zeigten, die Aufgaben zu lösen, schafften andere eine Genauigkeit von 90 Prozent. Der Durchschnittswert aller Getesteten zog das Gesamtergebnis gegenüber der rund 90-prozentigen Treffsicherheit von GPT-3 jedoch herunter auf eine Genauigkeit von nur noch 80 Prozent, da 25 Testteilnehmer Ergebnisse teils deutlich unterhalb der maschinellen Leistung erreichten. Im vierten Aufgabenblock, bei dem jeweils eine Geschichte vorgestellt wurde und aus zwei ähnlichen Erzählungen die analoge ausgewählt werden sollte, erreichte ein großer Teil der Studierenden vollkommene Treffsicherheit. Der Durchschnittswert aller menschlichen Getesteten übertraf GPT-3 deutlich: So erzielte das KI-System im Geschichten-Block eine rund 70-prozentige Treffsicherheit, der Durchschnittswert aller getesteten Collegestudenten hingegen lag bei mehr als 80 Prozent. Offenbar war die Maschine nicht in der Lage, den kausalen Zusammenhang zu erkennen.

Maschinelles Lernen und Wahrnehmung

Im maschinellen Lernen geht es darum, dass Systeme Muster und Bedeutungsnachbarschaften eigenständig erkennen, um menschliche Wahrnehmungsprozesse möglichst leistungsfähig nachzubilden. Auf Grund umfangreicher Trainingsdaten und schneller werdender Rechenvorgänge vermögen die in der Transformer-Architektur erstellten KI-Systeme zunehmend umfangreiche und komplexe Eingabesignale wie Texte, Klänge oder Bilder auf menschenähnlichem Niveau zu verarbeiten. Die Anweisungen erfolgen dabei in natürlicher Sprache über einfach bedienbare Nutzerschnittstellen (meistens im Browser oder auch lokal am eigenen Rechner), was diese neuartigen Systeme der breiten Masse seit 2022 besonders zugänglich macht und zu ihrer Popularität beigetragen hat.

Durch die auf großen Sprachmodellen aufbauenden KI-Chatsysteme wie ChatGPT oder Claude scheinen Maschinen beinahe schon zu Gesprächspartnern zu werden. Die Frage, wie weit das Abstraktionsvermögen und die Fähigkeit zum Herstellen von Analogien reicht, beschäftigt die Fachwelt derzeit mit Blick auf Deep-Learning-Systeme, die als künstliche neuronale Netze auf großen Datenmengen trainiert worden sind.

Die Aufgaben waren durchgängig in Textform gehalten oder wurden im Fall der zahlenbasierten Matrizen durch eine Textaufforderung eingeleitet. Letztere waren eng an die bekannteren Progressiven Matrizen von John C. Raven aus dem Jahr 1936 angelehnt. Dieser sprachfreie Matrixtyp wird verwendet, um die allgemeine menschliche Intelligenz zu messen; etwa, wenn es darum geht, abstraktes Denkvermögen einzustufen. Raven's Progressive Matrices (RPM) kommen bei klassischen Intelligenztests für Menschen ab fünf Jahren bis ins hohe Alter zum Einsatz. Der Testsatz besteht aus 60 Multiple-Choice-Fragen in aufsteigenden Schwierigkeitsgraden. Zu einer Zahlenfolge werden sechs mögliche Ergänzungen genannt, aus denen die Probanden auswählen können.

Einschränkungen der Fähigkeiten von GPT-3

Die Forscher merken an, dass es allerdings einige Einschränkungen in Hinblick auf die tatsächlichen Fähigkeiten des Sprachmodells gebe: So sei GPT-3 nicht in allen Bereichen in der Lage, menschliches Analogieverhalten nachzuahmen. Dem rein textbasierten Modell fehle etwa die physische Erfahrung in der Welt, die bei Menschen dazu führt, dass sie durch Unfälle und Fehler lernen und neue Schlüsse ziehen können. Eine den Forschern zufolge wichtige Erkenntnis war auch, dass GPT-3 nur begrenzt fähig ist, Analogien anhand von Kausalbeziehungen zu beurteilen. Das jedoch ist wichtig, um beim geschichtenübergreifenden Vergleich entfernte Ähnlichkeiten zu entdecken.

Die Tests waren zudem auf Prozesse beschränkt, die sich in einem überschaubaren, lokal begrenzten Zeithorizont ausführen ließen. Menschen hingegen seien in der Lage, hilfreiche Quellen aus ihrem Langzeitgedächtnis heranzuziehen und neue Konzepte auf der Grundlage einer Vielzahl von Einzelanalogien zu entwickeln. Anders als Menschen verfügt GPT-3 aber nicht über ein Langzeitgedächtnis für spezifische Vorfälle. Das begrenzt seine Fähigkeit, hilfreiche Ähnlichkeiten zu einem bestehenden Problem zu erkennen. Die Größe des so genannten Kontextfensters spielt dabei eine Rolle: Das Kontextfenster ist ein Puffer, der bestimmt, welcher Textumfang sinnerfassend im Kontext verarbeitet werden kann. Je länger die zusammenhängenden Textpassagen sind, die ein großes Sprachmodell verarbeiten kann, desto längere »Gedankenketten« vermag es zu bilden und desto tiefer könnte es theoretisch »in seinem Gedächtnis kramen«, um passende Analogien zu finden.

Neuere Sprachmodelle verfügen über ein größeres »Langzeitgedächtnis« als GPT-3

Neuere Sprachmodelle verfügen teils über einen weitaus größeren Kontextpuffer als GPT-3, das aus dem Jahr 2019 stammt. Während GPT-3 auf nur rund 2048 Token (also rund 2000 Wörter im Englischen und deutlich weniger im Deutschen) zugreifen kann, verfügt GPT-4 bereits über 32 000 Token an Kontextpuffer (bis zu 32 000 Wörter im Englischen). Das Modell Claude von Anthropic kann auf mehr als 100 000 Token zugreifen und das neue Claude 2 soll in absehbarer Zeit sogar 200 000 Token ohne Kontextverlust verarbeiten können, also den Umfang ganzer Bücher.

Was ist ein Token?

Ein Token ist die kleinste sinngebende Einheit, in die sich in der Informatik Texte oder auch Programmiersprachen zerlegen lassen. Das können je nach Sprache und Kontext ganze Wörter, aber auch Silben sein. Manchmal sind sogar größere sinntragende Einheiten gemeint. Im Englischen sind es bezüglich der Machine-Learning-Modelle oft einzelne Wörter, in anderen Sprachen wie Deutsch meist Silben. Ein Token ist ein konkretes Exemplar eines bestimmten Typs, das einzelne Vorkommnis von Wörtern oder Äußerungen in Texten.

Während des Forschungszeitraums lagen die neueren Modelle jedoch noch nicht vor. Als die Forschenden ihre Arbeit im Dezember 2022 bei »Nature« einreichten, war ChatGPT gerade frisch erschienen und GPT-4 noch Zukunftsmusik. Entsprechend konnten die neuesten Entwicklungen, die zuletzt extrem an Fahrt aufgenommen haben, nicht berücksichtigt werden. Die von den Wissenschaftlern im Artikel getroffenen Aussagen zur Vergesslichkeit des untersuchten Sprachmodells sind daher zum jetzigen Zeitpunkt bereits unter Vorbehalt zu sehen. Am Rande streifen die Verfasser des Papers das Problem selbst und erwähnen in einem nachträglich hinzugefügten Anhang, dass ein rudimentärer Testlauf mit GPT-4 gezeigt habe, dass dieses System noch deutlich bessere Ergebnisse liefere als GPT-3. Und so ist das Fazit der Forschungsgruppe deutlich: »Unsere Ergebnisse deuten darauf hin, dass sich bei großen Sprachmodellen wie GPT-3 die Fähigkeit abzuzeichnen beginnt, auf Anhieb und ohne vorherige Berührungspunkte Lösungen für ein breites Spektrum an Analogieproblemen zu finden.«

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.