Können wir Sprachmodelle verstehen und wie?

Leseprobe »Sprachmodelle Verstehen«: Sind Sprachmodelle Vorboten Künstlicher Allgemeiner Intelligenz?

Dieses Buch befasst sich mit Fragen rund um Sprachmodelle wie ChatGPT und um das Verstehen: Verstehen Chatbots, was wir ihnen sagen und meinen? Wie können uns Chatbots helfen, etwas besser zu verstehen – einen Text oder ein Konzept? Verstehen Sprachmodelle sich selbst – was sie sagen und warum sie es sagen? Können wir Sprachmodelle verstehen und wie?

von Hans-Peter Stricker

Roboter in Denkerpose — © mennovandijk / Getty Images / iStock (Ausschnitt)

Sind Sprachmodelle Vorboten Künstlicher Allgemeiner Intelligenz?

Die Fähigkeiten von Sprachmodellen sind durch »Texte generieren« und »Text verstehen« nur unvollkommen beschrieben. Was in Zusammenhang mit allgemeiner künstlicher Intelligenz – oder wie es sich in umgekehrter Reihenfolge zu sagen eingebürgert hat: künstlicher allgemeiner Intelligenz (englisch artificial general intelligence, AGI) – von Belang ist, ist die Fähigkeit von Sprachmodellen, Probleme aller möglichen Art zu lösen, sofern sie sich auf irgendeine Weise sprachlich formulieren und lösen lassen. Damit ist die Klasse von Problemen, die Sprachmodelle prinzipiell lösen können, von vornherein sehr weit gefasst und reicht von Schachproblemen bis zur Protein- und DNA-Analyse und- Synthese, in der es um »Texte« in der jeweiligen Sprache der Aminosäuren bzw. Nukleotide und Übersetzungen zwischen ihnen geht. Auch Handlungsabläufe wie in der Robotik kann man sich in einer »Aktionssprache« beschrieben vorstellen, die Sprachmodelle verstehen und in ihr Probleme der Robotik lösen können.

Kaum zu leugnen ist, dass Sprachmodelle einiges, was sie heute schon können, so gut und zum Teil besser verrichten als ein durchschnittlicher Mensch. Da genügt es tatsächlich, an »Texte generieren« und »Texte verstehen« zu denken, wobei es natürlich stark darauf ankommt, was als »durchschnittlicher Mensch« definiert wird. Nur sehr wenig – wenn überhaupt etwas – können Sprachmodelle besser als ein menschlicher Experte, auch das kann in seiner Allgemeinheit und Stand heute festgehalten werden. Auch hier ist zu fragen: Was ist ein Experte? Ist ein durchschnittlicher Hochschulabsolvent ein Experte auf seinem Gebiet oder erst nach langjähriger Berufserfahrung? Was den Vergleich mit spezialisierter State-of-the-art-KI (SOTA) betrifft, so reichen Sprachmodelle gelegentlich schon an sie heran. Hier ist insbesondere an übersetzungs-KI zu denken. Anderer spezialisierter KI, zum Beispiel Spiele-KI wie AlphaGo und AlphaZero, die menschliche Großmeister schlägt, können reine Sprachmodelle aber bei weitem nicht das Wasser reichen. Auch die Fähigkeiten von spezialisierter Mathematik-Software wie Wolframs Mathematica – das gleichzeitig ein Computeralgebrasystem, eine Numeriksoftware und eine Programmiersprache ist – oder dem Beweisassistenten LEAN sind für Sprachmodelle unerreicht und in ihrer heutigen Form unerreichbar.

Doch all diese Formen von KI werden Sprachmodelle zu nutzen lernen – und können es zum Teil heute schon – und voraussichtlich im Zusammenspiel mit menschlichen Experten noch sehr viel mehr aus ihnen herausholen, als es heute – ohne sie – schon der Fall ist.

Wenn im Zusammenhang mit AGI davon gesprochen wird, dass KI den Menschen eines Tages überflügeln könnte, spielen Sprachmodelle in diesen Szenarien eine wichtige Rolle, aber nicht die alleinige und womöglich noch nicht einmal die zentrale. Es werden nicht gleichsam isolierte, nur extrem weiterentwickelte Sprachmodelle sein, die die KI der Zukunft darstellen. Und wie im menschlichen Gehirn wird es eine zentrale Rolle womöglich nicht geben, und Sprachmodelle werden – wie die Sprachzentren im Gehirn – »nur« eine sehr wichtige Rolle spielen.

Wozu Sprachmodelle schon heute in der Lage sind – und das liegt im Wesen von Sprache begründet –, ist es, zwischen weit voneinander entfernt liegenden Bereichen, in denen sie jeweils über Wissen verfügen, Wissen und Problemlösungsstrategien zu transferieren. Und den- noch: Dass KI den Menschen trotz des großen Beitrags, den Sprachmodelle leisten werden, tatsächlich überflügeln könnte, können wir uns dann doch nur schwer konkret vorstellen. Die Frage ist nämlich auch: Was heißt »den Menschen überflügeln«? Wenn man nur an einzelne Menschen denkt: Gewiss, in vielem, was eine Person kann, wird KI sie womöglich überflügeln (wobei wir hier immer nur von kognitiven Fähigkeiten sprechen, das sei hier betont). Doch wie sieht es mit Gemeinschaftsleistungen und mit Problemen aus, an deren Lösung Generationen von Wissenschaftlern über Jahrhunderte gemeinsam gearbeitet haben? Glauben Apologeten einer AGI, die den Menschen übertrifft, dass eine KI, die hypothetischerweise auf den Stand der Mathematik im Jahre 1700, 1800 oder 1900 zurückversetzt würde, in der Lage wäre, auf den Beweis der Fermatschen Vermutung zu kommen, den Andrew Wiles im Jahre 1997 vorgelegt hat, der aber ohne die mehr oder weniger koordinierten Vorarbeiten von buchstäblich hunderten Mathematikern nicht zustande gekommen wäre.

Kurzum, viele Experten raten zur Zurückhaltung, wenn es um Funken künstlicher allgemeiner Intelligenz geht (englisch sparks of AGI), die begeisterte KI-Forscher und- Anhänger aufblitzen sehen, wenn ein Sprachmodell wie aus dem Nichts Aufgaben löst, die bis vor Kurzem noch als unlösbar galten. Eine Sammlung wirklich schwieriger Aufgaben – die für Sprachmodelle heute noch eher unlösbar sind – haben AGI- und Sprachmodell-Skeptiker um den französischen KI-Pionier Yann LeCun, Vater der Convolutional Neural Networks und KI-Forschungsdirektor bei Facebook, in der KI-Benchmark GAIA zusammengestellt.

Was können Sprachmodelle?

In diesem Kapitel fassen wir nicht nur Fähigkeiten von Sprachmodellen zusammen, also das, was sie im herkömmlichen Sinne »können«, sondern auch, was sie »wissen« und »verstehen«. Das erscheint gerechtfertigt, weil der Unterschied zwischen Können, Wissen und Verstehen kein besonders scharfer ist. Natürlich kann man ihn scharf herauszuarbeiten versuchen, wir wollen aber vom begrifflich Verbindenden ausgehen. Dieses kommt in verschiedenen Redeweisen zum Ausdruck, in denen die Grenzen eher verschwimmen. Zum einen sind Wissen und Verstehen selbst Fähigkeiten, denn man kann etwas wissen oder verstehen, im Sinne von »in der Lage sein« – oder auch nicht. Man denke dabei an Begriffe wie »die Grenzen des Verstehbaren« oder Kants Bedingungen der Möglichkeit:

F: Worauf beziehen sich Kants Bedingungen der Möglichkeit?

A: Immanuel Kants Bedingungen der Möglichkeit beziehen sich auf die grundlegenden Voraussetzungen, die gegeben sein müssen, damit Erkenntnis und Erfahrung möglich sind. Diese Bedingungen sind zentral in seiner kritischen Philosophie, insbesondere in seinem Hauptwerk »Kritik der reinen Vernunft«. Kant argumentiert, dass bestimmte a priori Strukturen und Konzepte notwendig sind, damit wir Erfahrungen machen und die Welt verstehen können.

Etwas zu können, bedeutet auch, zu wissen, wie man es tut, und zu wissen, wie man etwas tut, bedeutet, die richtigen Schritte zu kennen. Etwas zu wissen, bedeutet, etwas darüber sagen oder es tun zu können. Die etymologische Verwandtschaft von »können« und »kennen« ist dabei offensichtlich, und das ebenfalls verwandte englische to know bedeutet natürlich auch »wissen«. (Im Deutschen sagt man gleichbedeutend, jemand wisse oder verstehe zum Beispiel zu kochen, wenn man sagen möchte, er oder sie könne kochen.) Eine sprachliche Äußerung zu verstehen, bedeutet unter anderem, zu wissen, was mit ihr gemeint ist. Zu sagen, man wisse, was ein anderer meint, ist dementsprechend gleichbedeutend damit, dass man versteht, was er meint. Man sagt dann allerdings auch, man verstehe ihn. Wenn man sagt, »ich kenne sie«, dann meint man oft in einem umfassenderen Sinne, die Person zu verstehen. Beides wiederum beinhaltet, einiges über sie zu wissen, wobei es feine Bedeutungsunterschiede gibt die uns ChatGPT erklären kann:

F: Was ist der Unterschied zwischen »ich weiß viel über sie«, »ich kenne sie« und »ich verstehe sie«

A: Die drei Phrasen »ich weiß viel über sie«, »ich kenne sie« und »ich verstehe sie« beschreiben unterschiedliche Ebenen der Beziehung und des Verständnisses zwischen Menschen:

1. »Ich weiß viel über sie« bezieht sich typischerweise auf ein kognitives Wissen über eine Person. Es bedeutet, dass man viele Informationen über jemandes Leben, Vorlieben, Abneigungen, Geschichte und vielleicht auch über dessen Meinungen und Erfahrungen hat. Dieses Wissen kann man auch ohne eine tiefe emotionale Verbindung haben, zum Beispiel durch Erzählungen, Beobachtungen oder Recherche.

2. »Ich kenne sie« geht einen Schritt weiter und beinhaltet eine persönlichere und tiefere Verbindung. Es bedeutet, dass man nicht nur über jemanden Bescheid weiß, sondern auch mit dieser Person persönliche Erfahrungen gemacht hat, die zu einem tieferen Verständnis ihrer Persönlichkeit, ihres Verhaltens und ihrer Eigenarten geführt haben. Kennen impliziert eine direkte Beziehung und Interaktion, die über bloßes Wissen hinausgeht.

3. »Ich verstehe sie« ist noch intimer und tiefgründiger. Es bedeutet, dass man ein tiefes Empathieverständnis für die Gefühle, Gedanken und Motivationen einer anderen Person hat. Verstehen beinhaltet eine emotionale Komponente, bei der man sich in die Lage des anderen hineinversetzt und seine Emotionen und Reaktionen nachempfinden kann. Es geht nicht nur darum, wer die Person ist oder was sie getan hat, sondern warum sie etwas fühlt oder auf eine bestimmte Weise handelt.

Bedeutungsunterschiede kann ChatGPT auch an einem anderen Beispiel erläutern:

F: Welche Bedeutungen kann es haben, wenn jemand sagt »Ich kann Dich nicht verstehen?«

A: 1. Akustische Unverständlichkeit: Der Sprecher kann den anderen aufgrund von Lärm, schlechter Verbindung bei Telefonaten oder wegen einer undeutlichen Aussprache akustisch nicht verstehen.

2. Sprachliche Barrieren: Es kann auch bedeuten, dass der Sprecher Schwierigkeiten hat, die Sprache oder den Dialekt des anderen zu verstehen.

3. Inhaltliches Unverständnis: Manchmal bezieht sich das Unverständnis auf den Inhalt oder die Logik einer Aussage. Der Sprecher gibt damit zu verstehen, dass er die Argumentation, den Standpunkt oder die Erklärung der anderen Person nicht nachvollziehen kann.

4. Emotionales Unverständnis: In einem emotionalen Kontext kann die Aussage ausdrücken, dass der Sprecher die Gefühle, das Verhalten oder die Reaktionen der anderen Person nicht nachempfinden oder verstehen kann.

5. Aufforderung zur Klärung: Die Aussage kann auch eine Aufforderung sein, sich klarer auszudrücken oder bestimmte Punkte zu präzisieren, um Missverständnisse zu vermeiden.

Zwei weitere Facetten des Könnens und Verstehens: Die eher umgangssprachliche Redewendung, eine Sprache zu können (»er kann Deutsch«), beinhaltet, die Sprache zu verstehen, bedeutet aber darüber hinaus auch, sie zu sprechen bzw. sprechen zu können. Wenn man hingegen sagt, jemand »kann Mathematik«, so ist das fast synonym damit zu sagen, die Person verstünde (etwas von) Mathematik – oder aber, sie wisse viel über Mathematik. Vieles muss man übrigens erkennen können, bevor man es versteht – z.B. Mehrdeutigkeiten oder Ironie, wobei auf den ersten Blick kein großer Unterschied zwischen dem Erkennen und dem Verstehen von Ironie zu bestehen scheint. Deutlicher ist es bei Redewendungen bzw. sogenannter uneigentlicher Rede. Oft kann man (und so auch Sprachmodelle) erkennen, dass ein sprachlicher Ausdruck nicht wörtlich gemeint, sondern eine Redewendung ist, aber dennoch nicht verstehen bzw. wissen, was damit gemeint ist. Das folgende Beispiel ist ca. ein Jahr alt, damals war der Begriff »stochastische Papageien« noch nicht so geläufig wie heute:

F: Was sind stochastische Papageien?

A: »Stochastische Papageien« könnten metaphorisch verwendet werden, um eine Person oder ein System zu beschreiben, die Informationen einfach wiederholt oder repliziert, ohne viel Verständnis oder Kontrolle, ähnlich wie ein Papagei Worte wiederholt, die er hört. Der Begriff »stochastisch« würde sich auf etwas beziehen, das zufällig bestimmt ist, was bedeutet, dass die- se »Papageien« Informationen in einer zufälligen, unvorhersehbaren Weise replizieren könnten.

Jetzt, ein gutes Jahr später und mit neuen, aktuelleren Trainingsdaten gefüttert, versteht ChatGPT die Metapher auf Anhieb bzw. weiß, was gemeint ist:

F: Was sind stochastische Papageien?

A: »Stochastische Papageien« ist ein Begriff, der oft verwendet wird, um große Sprachmodelle wie GPT (Generative Pretrained Transformer) zu beschreiben. Der Begriff wurde in der Debatte über die Funktionsweise und Ethik von KI-Modellen populär. Er impliziert, dass diese Modelle, trotz ihrer Fähigkeit, kohärente und oft beeindruckende Texte zu generieren, im Grunde nur Wahrscheinlichkeiten nutzen, um Wörter basierend auf den ihnen während des Trainings vorgelegten Daten zu »papageien«. Das bedeutet, dass sie keine echtes Verständnis oder Bewusstsein haben; sie simulieren Verständnis durch die Analyse großer Datenmengen und das Erkennen von Mustern in diesen Daten.

Die Kritik, die oft mit diesem Begriff einhergeht, bezieht sich darauf, dass solche Modelle zwar in der Lage sind, Texte zu produzieren, die menschlich erscheinen, aber ihre Antworten sind nicht wirklich durch Verständnis oder bewusstes Denken informiert, sondern durch die statistische Analyse der Häufigkeit, mit der Wörter und Phrasen in den Trainingsdaten zusammen auftreten.

Was Sprachmodellen erkennen, können, wissen und verstehen, kommt auf so vielen Ebenen und in so vielen Facetten daher, dass es nicht einfach ist, ihre Fähigkeiten in eine klare Ordnung zu bringen. Auch wenn Können, Wissen und Verstehen begrifflich nicht scharf voneinander zu trennen sind, ist es trotzdem sinnvoll, von Fähigkeiten bzw. dem Können von Sprachmodellen im engeren Sinne zu sprechen und von ihrem Wissen und ihren Verständnisfähigkeiten getrennt zu betrachten und darzustellen. Wir beginnen dafür bei konkreten, aber allgemeinen Fähigkeiten, die darüber hinaus nützlich sind und die man als Benutzer unmittelbar in Anspruch nehmen wollen kann. Diesen stellen wir einige elementare Fähigkeiten gegenüber, die den konkreten Fähigkeiten zugrunde liegen, die ohne sie gar nicht möglich wären. Diese elementaren Fähigkeiten sind gleichzeitig auch eher verborgene und abstrakte Fähigkeiten, von denen man als Benutzer nicht sagen würde, dass man sie gezielt und explizit in Anspruch nehmen möchte, und die nicht immer unmittelbar ins Auge springen.

Leider endet die Leseprobe an dieser Stelle. Das Buch »Sprachmodelle Verstehen« bietet den Rest des Kapitels und mehr.