Direkt zum Inhalt

Künstliche Intelligenz: Wie eine KI lernt, sich selbst zu erklären

Große Sprachmodelle wie ChatGPT und Co. neigen dazu, Dinge zu erfinden. Durch einen neuen Ansatz können die Systeme ihre Antworten nun erklären – zumindest teilweise.
Ein Gehirn mit vielen bunten Farbkleksen
Indem man den Fokus von KI-Systemen auf die richtigen Dinge lenkt, liefern sie bessere Resultate.

Als ich ChatGPT gefragt habe, wer der Chefredakteur von »Spektrum der Wissenschaft« ist, kam als Antwort:

Ich habe die neuesten Informationen bis zum Jahr 2021 und zu diesem Zeitpunkt war Dr. Florian Freistetter der Chefredakteur von »Spektrum der Wissenschaft«. Es ist jedoch möglich, dass sich die Information seitdem geändert hat.

Das verdeutlicht einen der größten Nachteile aktueller Sprach-KI: Sie halluzinieren. Zwar finden sich auf »Spektrum.de« tatsächlich viele Inhalte von Freistetter (unter anderem durch seine Kolumne »Freistetters Formelwelt«), doch er war nie Mitarbeiter, geschweige denn Chefredakteur von »Spektrum der Wissenschaft«. Daher ist es wichtig, an so genannten erklärbaren KI-Modellen (XAI) zu arbeiten, die ihre Antworten begründen können – und somit transparenter werden.

Denn die meisten KI-Programme funktionieren wie eine Black Box. »Wir wissen genau, was ein Modell tut, aber nicht, warum es jetzt konkret erkannt hat, dass ein Bild eine Katze zeigt«, sagte der Informatiker Kristian Kersting von der TU Darmstadt dem »Handelsblatt«. Deshalb hat Kersting, zusammen mit den Computerwissenschaftlern Patrick Schramowski von der TU Darmstadt und Björn Deiseroth, Mayukh Deb und Samuel Weinbach, die beim deutschen KI-Unternehmen Aleph Alpha arbeiten, im Januar 2023 »AtMan« vorgestellt. Dieser Algorithmus ermöglicht es großen KI-Systemen wie ChatGPT, Dall-E oder Midjourney, ihre Ausgaben zu erklären.

Mitte April 2023 hat die in Heidelberg ansässige Firma Aleph Alpha »AtMan« in ihr eigenes Sprachmodell »Luminous« integriert, wodurch die KI ihre Ausgabe begründen kann. Wer sich daran ausprobieren möchte, kann den Luminous-Playground kostenfrei nutzen, etwa um einen Text zusammenzufassen oder eine Eingabe zu vervollständigen. Zum Beispiel folgt auf »Ich esse meinen Burger am liebsten mit« die Antwort »Pommes und Salat«. Anschließend lässt sich dank »AtMan« untersuchen, welche Eingabewörter zur Ausgabe geführt haben: »Burger« und »liebsten«.

Allerdings beschränkt sich die Erklärbarkeit von »AtMan« auf die Eingabedaten. Es kann zwar erklären, dass die Wörter »Burger« und »liebsten« das Sprachmodell »Luminous« am stärksten dazu verleitet haben, die Eingabe mit »Pommes und Salat« zu vervollständigen. »AtMan« kann aber nicht begründen, woher »Luminous« weiß, dass Burger häufig mit Pommes und Salat verzehrt werden. Dieses Wissen steckt in den Daten, mit denen das Modell trainiert wurde, nicht im übergebenen Inhalt.

Auch wenn »AtMan« damit nicht jede Lüge eines KI-Systems entlarven kann (etwa, dass Florian Freistetter mein Chef sei), bietet die Erklärbarkeit aus Eingabedaten enorme Vorteile: So lässt sich zum Beispiel schnell prüfen, ob eine KI-generierte Zusammenfassung korrekt ist – und sicherstellen, dass die KI nichts hinzugedichtet hat. Auch aus ethischer Sicht spielt eine solche Erklärbarkeit eine wichtige Rolle: »Nutzt eine Bank etwa einen Algorithmus, um die Kreditwürdigkeit einer Person zu berechnen, lässt sich überprüfen, welche persönlichen Daten zu dem Ergebnis geführt haben: Hat die KI diskriminierende Merkmale wie Hautfarbe, Geschlecht und so weiter verwendet?«, sagt Deiseroth, der »AtMan« mitentwickelt hat.

»KI-Systeme werden extrem schnell entwickelt und teilweise zu früh in Produkte integriert«Patrick Schramowski, Informatiker

Zudem beschränkt sich »AtMan« nicht nur auf reine Sprachmodelle. Man kann damit ebenfalls die Ausgaben von KI-Programmen untersuchen, die Bilder erzeugen oder verarbeiten. Somit ließe sich die neue Methode auch im medizinischen Sektor anwenden. Damit wird nicht nur eine KI-generierte Diagnose nachvollziehbar – Mediziner könnten sogar von der KI lernen, falls diese Muster von Erkrankungen erkennt, die Menschen bisher entgangen sind.

KI-Algorithmen sind eine Black Box

»KI-Systeme werden extrem schnell entwickelt und teilweise zu früh in Produkte integriert«, erklärt Schramowski, der ebenfalls an der Entwicklung von »AtMan« beteiligt war. »Es ist wichtig, dass wir verstehen, wie eine KI zu einer Aussage kommt, um sie verbessern zu können.« Denn die Algorithmen sind nach wie vor eine Black Box. Man weiß zwar, wie sie funktionieren, doch es ist oft unklar, warum eine Ausgabe auf eine Eingabe folgt. Schlimmer noch: Übergibt man einem Modell mehrmals hintereinander dieselbe Eingabe, kann die Ausgabe variieren. Grund dafür ist ihre Funktionsweise.

Moderne KI-Systeme wie Sprachmodelle, maschinelle Übersetzungsprogramme oder bilderzeugende Algorithmen basieren auf neuronalen Netzen. Deren Aufbau ist an den visuellen Kortex unseres Gehirns angelehnt: Die Neurone sind in mehreren Schichten hintereinander aufgebaut und durch Synapsen miteinander verbunden. Möchte man einem solchen Programm zum Beispiel ein Bild übergeben, wird es zunächst in eine Liste aus Zahlen umgewandelt (jedes Pixel entspricht einem Eintrag). Die Neurone der ersten Schicht nehmen dann diese Zahlenwerte an.

Neuronales Netz | Ein neuronales Netz ist ein Algorithmus, der in seinem Aufbau dem menschlichen Gehirn nachempfunden ist. Er besteht aus Recheneinheiten, den »Neuronen« n und h, sowie geeigneten Gewichten w, die durch das Training bestimmt werden. Die Ausgabe des Programms (etwa n8) hängt dann von den Werten vieler verschiedener Neurone und Gewichte ab (rot).

Anschließend durchlaufen die Daten das neuronale Netz Schicht für Schicht: Die Synapsen enthalten ebenfalls Zahlenwerte, so genannte Gewichte, die mit dem Wert des Neurons multipliziert und an das Neuron aus der nächsten Schicht übertragen werden. Gegebenenfalls muss das Ergebnis dort mit den Werten anderer Synapsen, die am gleichen Neuron enden, addiert werden. So verarbeitet das Programm die ursprüngliche Eingabe Schicht für Schicht, bis die Neurone der letzten Schicht eine Ausgabe liefern – zum Beispiel, ob sich eine Katze, ein Hund oder eine Möwe im Bild befinden.

Ein Bild mit vier Pixeln

Aber wie stellt man sicher, dass ein Netz die Eingabedaten so verarbeitet, dass ein sinnvolles Ergebnis entsteht? Dafür müssen die Gewichte, also die Zahlenwerte der Synapsen, richtig kalibriert sein. Wenn sie passend eingestellt sind, kann das Programm unterschiedlichste Bilder beschreiben. Die Gewichte konfiguriert man nicht selbst, sondern man unterzieht die KI einem Training, damit sie möglichst passende Werte findet.

Das funktioniert folgendermaßen: Das neuronale Netz startet zunächst mit einer zufälligen Auswahl an Gewichten. Anschließend setzt man dem Programm zehn- oder hunderttausende Beispielbilder mit den dazugehörigen Bezeichnungen vor (etwa »Möwe«, »Katze« und »Hund«). Das Netzwerk verarbeitet das erste Bild und erzeugt eine Ausgabe, die es mit der vorgegebenen Beschreibung vergleicht. Wenn das Ergebnis von der Vorlage abweicht (was anfangs höchstwahrscheinlich der Fall ist), setzt die so genannte Backpropagation ein: Nun bewegt sich der Algorithmus rückwärts durch das Netzwerk und verfolgt nach, welche Gewichte das Ergebnis maßgeblich beeinflusst haben – und verändert sie. Diese Kombination aus Verarbeitung, Überprüfung und Gewichtsanpassung wiederholt der Algorithmus mit allen Trainingsdaten. War das Training erfolgreich, ist er anschließend in der Lage, auch bisher ungesehene Bilder korrekt zu beschreiben.

Es gibt zwei Methoden, um KI-Ergebnisse zu verstehen

Häufig ist jedoch nicht bloß die Antwort einer KI interessant, sondern auch, welche Informationen sie zu ihrem Urteil gebracht haben. Gerade im medizinischen Bereich möchte man wissen, warum ein Programm zum Beispiel glaubt, Anzeichen einer Erkrankung in einem Scan entdeckt zu haben. Um das herauszufinden, könnte man natürlich in den Quellcode des trainierten Modells selbst blicken, denn dieser enthält alle Informationen. Doch moderne neuronale Netze besitzen hunderte Milliarden von Parametern – es ist also unmöglich, den Überblick zu behalten.

Dennoch gibt es Möglichkeiten, um die Ergebnisse einer KI transparent zu gestalten. Dafür gibt es zwei unterschiedliche Ansätze:

  1. Backpropagation: Wie beim Trainingsprozess verfolgt man zurück, wie die Ausgabe aus den Eingabedaten generiert wurde. Dafür muss man die »Synapsen« im Netzwerk mit den höchsten Gewichten zurückverfolgen und kann somit auf die ursprünglichen Eingangsdaten schließen, die das Ergebnis am stärksten beeinflusst haben.
  2. Störungsmodell: Man verändert die Eingabedaten leicht und beobachtet, wie sich dadurch die Ausgabe der KI verändert. Somit lässt sich herausfinden, welche Eingangsdaten das Ergebnis am stärksten beeinflussen.

Die beiden XAI-Methoden wurden schon häufig eingesetzt. Allerdings scheitern sie bei großen KI-Modellen wie ChatGPT, Dall-E oder Luminous, die mehrere Milliarden Parameter besitzen. Für die Backpropagation fehlt beispielsweise der erforderliche Speicherplatz: Wenn die XAI das Netzwerk rückwärts durchläuft, müsste man über die vielen Milliarden Parameter Buch führen. Während des Trainings einer KI ist das in riesigen Rechenzentren zwar möglich. Doch diese Methode lässt sich nicht ständig wiederholen, um eine Eingabe zu überprüfen.

Beim Störungsmodell ist nicht der Speicher der limitierende Faktor, sondern die Rechenleistung. Möchte man etwa wissen, welcher Bereich eines Bilds entscheidend für die Antwort einer KI war, müsste man jedes Pixel einzeln variieren und daraus jedes Mal eine neue Ausgabe erzeugen. Das beansprucht sehr viel Zeit und Rechenleistung, die in der Praxis nicht verfügbar ist.

Den Forschern um Kersting ist es gelungen, das Störungsmodell für große KI-Systeme anzupassen, damit die benötigte Rechenleistung überschaubar bleibt. Anders als herkömmliche Algorithmen variiert »AtMan« nicht die Eingabewerte direkt, sondern verändert die Daten, die sich bereits einige Schichten tiefer im Netzwerk befinden. Dadurch spart man erhebliche Rechenschritte.

Eine erklärbare KI für Transformer-Modelle

Um zu verstehen, wie das funktioniert, muss man die Funktionsweise von KI-Modellen kennen, die ChatGPT und Co. ermöglichen. Dabei handelt es sich um eine bestimmte Art von neuronalen Netzen, so genannte Transformer-Netzwerke. Ursprünglich wurden sie entwickelt, um natürliche Sprache zu verarbeiten, doch inzwischen finden sie auch bei der Bilderkennung und Bilderzeugung Anwendung.

Die schwierigste Aufgabe bei der Verarbeitung von Sprache ist, die übergebenen Wörter in eine passende mathematische Darstellung umzuwandeln. Bei Bildern ist dieser Schritt einfach: Man wandelt sie in eine lange Liste von Pixelwerten um. Wenn die Einträge zweier Listen nah beieinander liegen, dann entsprechen sie auch optisch ähnlichen Bildern.

Ein ähnliches Verfahren muss man für Worte finden, wobei semantisch ähnliche Wörter eine ähnliche Darstellung erhalten sollen (etwa Haus und Hütte), während ähnlich geschriebene Wörter mit unterschiedlicher Bedeutung (wie Haus und Maus) in ihrer mathematischen Form weiter auseinanderliegen. Diese anspruchsvolle Aufgabe können Transformer meistern: Sie wandeln Wörter in eine besonders geeignete mathematische Darstellung um.

Worteinbettung | Eine der schwierigsten Aufgaben beim Erstellen von Sprachmodellen ist, Wörter geeignet darzustellen. Ausdrücke, die sich von der Bedeutung her ähnlich sind, sollen sich in ihrer mathematischen Darstellung auch kaum unterscheiden.

Damit das gelingt, ist allerdings viel Arbeit nötig. Man muss das Netzwerk mit etlichen Texten füttern, so dass es lernt, welche Wörter in ähnlichen Umgebungen auftauchen und sich damit semantisch ähneln.

Es geht um Aufmerksamkeit

Doch das allein reicht nicht aus. Man muss auch sicherstellen, dass die KI nach dem Training eine längere Eingabe versteht – zum Beispiel die ersten Zeilen des Wikipedia-Eintrags zu »Spektrum der Wissenschaft«: »Spektrum der Wissenschaft ist eine populärwissenschaftliche Monatszeitschrift. Sie wurde 1978 als deutschsprachige Ausgabe des seit 1845 in den USA erscheinenden Scientific American gegründet, hat aber im Laufe der Zeit einen zunehmend eigenständigen Charakter gegenüber dem US-amerikanischen Original gewonnen.« Woher weiß das Sprachmodell, worauf sich »Sie« und »US-amerikanischen Original« im zweiten Satz bezieht? Die meisten neuronalen Netzwerke scheiterten an solchen Aufgaben. Bis Fachleute von Google Brain im Jahr 2017 den so genannten Aufmerksamkeitsmechanismus vorgestellt haben, den Kern der Transformer-Netzwerke.

Die Aufmerksamkeit ermöglicht es KI-Modellen, die wichtigsten Informationen einer Eingabe zu erkennen: Welche Wörter hängen zusammen? Welche Inhalte sind für die Ausgabe am relevantesten? Somit ist es in der Lage, Bezüge zwischen Wörtern zu erkennen, die im Text weit voneinander entfernt sind. Dafür nimmt es sich jedes Wort in einem Satz vor und setzt es mit jedem anderen in Bezug: Das Modell startet für den Wikipedia-Beispielsatz also mit »Spektrum« und vergleicht es mit der gesamten Eingabe, also »Spektrum«, »der«, »Wissenschaft« und so weiter. Durch diesen Vorgang lässt sich eine neue mathematische Darstellung der eingegebenen Wörter finden – und zwar eine, die den Inhalt des Satzes berücksichtigt. Dieser Aufmerksamkeitsschritt findet sowohl beim Training als auch im Betrieb statt, wenn Nutzer etwas eingeben.

Aufmerksamkeitsmechanismus

Auf diese Weise gelingt es Sprachmodellen wie ChatGPT oder Luminous, eine Eingabe zu verarbeiten und daraus eine Antwort zu erzeugen: Indem das Programm bestimmt, welchen Inhalten es wie viel Aufmerksamkeit schenken muss, kann es berechnen, welche Wörter am wahrscheinlichsten auf die Eingabe folgen.

Den Fokus gezielt verschieben

Diesen Aufmerksamkeitsmechanismus kann man verwenden, um Sprachmodelle transparenter zu gestalten. »AtMan« (von »attention manipulation«) manipuliert gezielt, wie viel Aufmerksamkeit eine KI bestimmten Eingabewörtern schenkt: Er kann die Aufmerksamkeit auf bestimmte Inhalte lenken und von anderen wegführen. Damit lässt sich erkennen, welche Teile der Eingabe für die Ausgabe entscheidend waren – ohne zu viel Rechenleistung zu verbrauchen.

Ein Beispiel führen die Forscher um Kersting in der Veröffentlichung zu »AtMan« vor. Sie übergeben einem Sprachmodell folgenden Text: »Hallo, mein Name ist Lukas. Ich mag Fußball und Mathe. Ich arbeitete in den letzten Jahren an …« Die ursprüngliche Vervollständigung des Modells lautete »… meinem Abschluss in Informatik«. Als die Forscher die Aufmerksamkeit auf »Fußball« erhöhten, änderte sich die Ausgabe zu »… dem Fußballfeld«. Als sie die Aufmerksamkeit auf »Mathe« erhöhten, erhielten sie »… Mathematik und Wissenschaft«.

Damit stellt »AtMan« einen wichtigen Fortschritt im Bereich XAI dar und kann uns dem Verständnis von KI-Systemen näherbringen. Vor wildem Halluzinieren bewahrt es Sprachmodelle jedoch nicht – und es kann auch nicht erklären, warum ChatGPT glaubt, dass Florian Freistetter der Chefredakteur von »Spektrum der Wissenschaft« ist.

»Es scheint, als könne ›AtMan‹ noch mehr«Björn Deiseroth, Informatiker

Aber man kann damit immerhin steuern, welche Inhalte die KI berücksichtigt und welche nicht. »Das ist zum Beispiel wichtig bei Algorithmen, die die Kreditwürdigkeit einer Person beurteilen«, erklärt Schramowski. »Wenn ein Programm seine Ergebnisse auf sensible Daten wie die Hautfarbe, Geschlecht oder Herkunft einer Person stützt, kann man den Fokus darauf gezielt ausschalten.« Fragwürdig ist es auch, wenn sich zeigt, dass eine Ausgabe kaum von den übergebenen Inhalten abhängt. Dann hat die KI offenbar alle generierten Inhalte aus den Trainingsdaten geschöpft. »Die Ergebnisse sollte man dann gründlich prüfen«, sagt Schramowski.

»AtMan« kann nicht nur Textdaten auf diese Weise verarbeiten, sondern jede Art von Daten, mit denen ein Transformer arbeitet. Der Algorithmus lässt sich beispielsweise mit einer KI kombinieren, die Beschreibungen zu Bildern liefert. Damit kann man herausfinden, welche Bereiche eines Bilds zu der gelieferten Beschreibung geführt haben. In ihrer Veröffentlichung betrachten die Forscher hierfür das Foto eines Pandas: Die KI hat ihre Beschreibung »Panda« hauptsächlich auf Grund des Gesichts des Tiers gefällt.

»Und es scheint, als könne ›AtMan‹ noch mehr«, erklärt Deiseroth, der den Algorithmus ebenfalls mitentwickelt hat. »Man könnte die Erklärungen von ›AtMan‹ gezielt nutzen, um die KI-Modelle zu verbessern.« Vergangene Arbeiten haben bereits gezeigt, dass kleinere KI-Systeme bessere Ergebnisse liefern, wenn man sie darauf trainiert, gute Begründungen zu liefern. Nun muss noch untersucht werden, ob das auch auf »AtMan« und große Transformer-Modelle zutrifft. »Das müssen wir aber noch überprüfen«, sagt Deiseroth.

Schreiben Sie uns!

2 Beiträge anzeigen

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.