»Sprachmodelle verstehen«: Wenn aus Daten Sprache wird
Spätestens seit 2023 und der Einführung von ChatGPT-4 ist der Einsatz künstlicher Intelligenz zum Massenphänomen geworden. Speziell dieses Sprachmodell stammt vom Softwareunternehmen OpenAI, hinter dem inzwischen Microsoft als sein größter Investor steht. Es lässt sich mit anderen Sprachmodellen vergleichen, wie sie etwa auch Google entwickelt. In seinem Buch erklärt der Physiker und Philosoph Hans-Peter Stricker Sprachmodelle primär anhand von ChatGPT-4.
GPT steht für »Generative Pre-Trained Transformer«: Das Modell wandelt Daten in Sprache um. Nach diesem Prinzip beantwortet es Anfragen, kann etwa sehr gut Bücher zusammenfassen und mit dem Fragesteller kommunizieren, soll aber ebenso dazu beitragen, Probleme aller Art zu lösen. Diesen Aufgaben entsprechend wurde es entwickelt, in der Fachsprache: »trainiert«.
Sprachmodelle wie diese zählen zu den vielen Systemen der künstlichen Intelligenz, die ansonsten etwa in bildgebenden Verfahren, bei der Gesichtserkennung oder dem autonomen Fahren zum Einsatz kommt. Um 1950 hatte der Vordenker der Kybernetik Alan Turing die Vision, dass Maschinen mit Menschen so kommunizieren können, dass diese jene ebenfalls für einen Menschen halten. Erst gegen Ende des letzten Jahrhunderts konnte man sich langsam an die Entwicklung solcher Systeme wagen.
Ihre Grundlage bilden künstliche Neuronen, nämlich Programme, die Funktionen mit Ein- und Ausgängen simulieren und sich dabei mit unendlich vielen weiteren Neuronen vernetzen, um Daten auszutauschen. Vorbild für diese Prozesse waren die Vorgänge im Gehirn, daher der Begriff »Neuronen«. Wie diese Vernetzungen beim Austausch von Daten genau funktionieren, lässt sich nicht eindeutig bestimmen. Stricker schreibt: »Natürlich verstehen die Erfinder und Entwickler der Sprachmodelle diese besser und tiefer, als ein Laie es vermöchte, aber doch nur bis zu einem gewissen Punkt.« Die hohen Ansprüche, die sich aus solchen Vorgängen an die Rechenleistungen von Computern ergeben, führten zur Entwicklung einer an diese angepassten Generation von Chips.
Wie »menschlich« sind die Sprachmodelle?
Auch was Sprachmodelle selbst »verstehen«, ist fraglich und hängt davon ab, wie man »Verstehen« bestimmt. Denn sie erfassen Worte nicht inhaltlich, sondern nur gemäß ihrer Umgebung, also abhängig von den Worten in ihrer Nachbarschaft und damit davon, wie sie in Sätzen und Texten vorkommen. Dazu benötigen Sprachmodelle umfängliches Datenmaterial, das so erst durch die Entwicklung des Internets zugänglich wurde, was die großen Fortschritte der KI in den letzten zwei Jahrzehnten ermöglichte. Zu Beginn der KI-Entwicklung ließ man noch unendlich viele Bilder mühsam beschriften, um zu gewährleisten, dass das System einen Löwen von einem Elefanten unterscheiden kann – etwas, was Kinder nach ein, zwei Beispielen können.
Nur große Rechenzentren, die freilich Unmengen von Energie verbrauchen, können die riesigen Datenmengen verarbeiten, die effektive Anwendungen künstlicher Intelligenz benötigen. Durch das neuronale Netzwerk können komplexe Algorithmen – also Softwareprogramme, die bestimmte Aufgaben ausführen – Daten verarbeiten. Dafür brauchen die Programme immer neue Daten; manchmal suchen sie diese auch selbst im Internet oder arbeiten mit Verweisen auf Google-Suchergebnisse.
Bis das Sprachmodell »ordentliche« Antworten liefert, muss es intensiv überprüft werden. Diese sehr aufwändige Arbeit übernehmen teilweise Techniker und Programmierer. Daher gibt man den Algorithmen auch Überprüfungsprogramme vor, mit deren Hilfe die Modelle automatisch kontrolliert werden. Beides nennt man »Trainieren«, was aber einer sprachlichen Vermenschlichung der KI gleichkommt, die weit verbreitet ist. Das Grundproblem all dieser Prozesse ist, dass man das Geschehen im neuronalen Netzwerk nicht direkt steuern kann, sondern nur indirekt, indem man die Antworten des Algorithmus steuert.
Schließlich soll ChatGPT-4 kurz, verständlich, sachgerecht und richtig antworten. Faktentreue ist dabei dessen Sache nicht unbedingt, und dies umso weniger, je aktueller eine Frage ist. Manchmal fragt der Chatbot zurück, manchmal weicht er aus, manchmal erfindet er Sachverhalte. Ihm ist qua Programmierung vorgeschrieben, nicht unmoralisch zu antworten. So behauptet er doch glatt auf die Frage, was das Bild von Max Ernst »Die Jungfrau züchtigt das Jesuskind vor drei Zeugen« – das 1926 in Paris einen Skandal verursachte – zeige: Das Kind schläft friedlich.
Stricker erläutert sehr detailliert, wie ein Sprachmodell der KI funktioniert. Trotzdem ist sein Buch verständlich und insgesamt sehr empfehlenswert.
Schreiben Sie uns!
Beitrag schreiben