Leseprobe »Sprachmodelle Verstehen«: Was ist maschinelles Lernen?
Was ist maschinelles Lernen?
Sprachmodelle sind als neuronale Netze nicht zuletzt klassische Beispiele für maschinelles Lernen (englisch machine learning, ML). Maschinelles Lernen ist aber nicht auf neuronale Netze und noch nicht einmal auf statistische Modelle im Allgemeinen beschränkt, denn auch die Parameter deterministischer, regelbasierter Modelle können maschinell gelernt werden. Und doch begegnen einem die grundlegenden Prinzipien, nach denen Maschinen, also Computer und Roboter lernen, vor allem im Zusammenhang mit neuronalen Netzen auf die wir uns deshalb im Folgenden beschränken. Diese grundlegenden Prinzipien sind das überwachte, das unüberwachte und das verstärkende Lernen, wobei das Transfer-Lernen oft als vierte Form genannt wird. Andere Formen des maschinellen Lernens werden meist als Spezialfälle der ersten drei Arten betrachtet, z.B. das Imitationslernen, auf das wir kurz zu sprechen kommen werden.
Als Fachgebiet ist das maschinelle Lernen ein typisches interdisziplinäres Fach und einerseits Teilgebiet der angewandten Statistik, andererseits der Computerwissenschaften, insbesondere der KI (als wissenschaftliche Disziplin). Wichtige Konzepte des maschinellen Lernens sind der Lernpsychologie entlehnt. Der häufigste Lernmechanismus, der vor allem beim überwachten und beim Verstärkungslernen auf unterster Modellebene die statistischen Parameter anpasst – im Falle neuronaler Netze also die synaptischen Gewichte – ist der reinen Mathematik, namentlich der Analysis und Differentialrechnung entlehnt: der Backpropagation-Algorithmus. Anders als die Hebbsche Lernregel hat er kein biologisches oder sonstiges Vorbild, ist dafür aber auf digitalen Computern sehr effizient realisierbar.Überwachtes Lernen
Das überwachte Lernen kann als Lernen durch Beispiele charakterisiert werden. Es ist vielleicht die am einfachsten nachvollziehbare Art wie einem neuronalen Netz etwas beigebracht werden kann. Das Ziel ist es, ein Modell zu entwickeln, das eine Ausgabe basierend auf den Eingabedaten vorhersagen kann. Dafür präsentiert man dem Netz während des Trainings in seiner Eingabeschicht eine Reihe von Beispieldaten – seien es Bilder, Texte oder sonstige Daten – und lässt es die Daten prozessieren, d.h. von der Eingabe- über eine oder mehrere Zwischenschichten zur Ausgabeschicht durchlaufen. Dabei führen die synaptischen Gewichte des Netzes dazu, dass in der Ausgabeschicht eine bestimmte »Antwort« erzeugt wird, zum Beispiel, welches Tier auf dem Bild zu sehen ist, welcher Autor den Text verfasst oder welches Wort dem Text als nächstes folgt. In allen Fällen ist die Antwort genaugenommen eine Wahrscheinlichkeitsverteilung – welches Tier, welcher Autor, welches Wort ist wie wahrscheinlich? –, die durch die Aktivitäten von Neuronen kodiert sind. Die richtige Antwort – meist »Label genannt – ist vorab bekannt und wird mit der Antwort des Netzes verglichen. Daher heißt diese Trainingsmethode »überwacht«. Dabei ist es wichtig, nicht nur zu wissen, ob die Antwort richtig oder falsch ist, sondern wie richtig oder falsch, wie groß also der Fehler ist. Bei kategorialen Antworten wie zum Beispiel Tier- oder Autorennamen scheint es zwar nur »richtig« oder »falsch« zu geben, doch im Kapitel über das selbstüberwachte Vortraining von Sprachmodellen werden wir sehen, wie dem beizukommen ist, nämlich über die oben erwähnten Wahrscheinlichkeitsverteilungen. Auf jeden Fall hängt von der Größe des Fehlers ab, wie stark und in welche Richtung die Gewichte des Netzes angepasst werden, nämlich so, dass der Fehler für dasselbe Beispiel beim nächsten Mal kleiner würde. Das geschieht durch den bereits erwähnten Backpropagation- Mechanismus, indem der Fehler durch das Netz zurückpropagiert wird und dabei die Gewichte ändert.
Je größer ein neuronales Netz ist und je feinere Unterscheidungen es treffen können soll, mit desto mehr gelabelten Beispielen muss es trainiert werden. Dabei ist es nicht verboten, es mit denselben Beispielen mehrfach zu trainieren und mit besonders wichtigen sogar noch öfter. Grundsätzlich kann es aber sein, dass die verfügbaren gelabelten Beispiele nicht ausreichen, zumal, wenn für das Auszeichnen der Beispiele mit Labeln menschliche Annotatoren vonnöten sind. Deshalb werden heute nicht selten für die Bilderkennung künstliche Beispiele samt Label von generativer Bild-KI synthetisiert. Eine andere Methode, die ohne menschliche Annotatoren auskommt, ist das selbstüberwachte Lernen, bei dem die Label aus dem Beispiel selbst stammen und ihm entnommen werden. Das prominenteste Beispiel dafür sind unsere vortrainierten Sprachmodelle. Dabei wird von einem gegebenen Stück Text einfach das letzte Wort abgeschnitten und dem neuronalen Netz vorenthalten. Als Label ist es bekannt und kann mit dem vom neuronalen Netz für den Rest des Textes »geratenen« nächsten Wort verglichen, der Fehler berechnet und dann zurückpropagiert werden.
Unüberwachtes Lernen
So, wie überwachtes Lernen als Lernen durch Beispiele charakterisiert werden kann, kann unüberwachtes Lernen als Lernen durch Entdecken verstanden werden, nämlich das selbständige Entdecken verborgener Muster und Regelmäßigkeiten in den Daten. Ein typischer Anwendungsfall ist das Clustern von Daten, d.h. das automatische Gruppieren in Klassen ähnlicher Bilder oder Texte, ohne dass diese vorab als Label definiert und bekannt wären: Sie werden während des Trainings erst gefunden. Zwar werden auch beim überwachten Lernen Muster in den Daten entdeckt (und in den Synapsen des Netzes kodiert), und auch hier dienen die entdeckten Muster der Klassifikation. Insofern besteht der wesentliche Unterschied zwischen überwachtem und unüberwachtem Lernen in der Selbständigkeit des Entdeckens. Wir gehen hier allerdings nicht weiter auf das unüberwachte Lernen ein, denn tatsächlich spielt es für Sprachmodelle eine untergeordnete Rolle. Auch wenn ChatGPT in der folgenden Antwort »unüberwacht« mit »selbstüberwacht« verwechselt:
F: Werden Sprachmodelle wie GPT auch unüberwacht trainiert?
Ein konkretes Beispiel dafür ist das ursprüngliche Training von GPT-Modellen, das auf einem unüberwachten Lernansatz basiert.
Beim unüberwachten Training werden die Modelle mit großen Mengen an Textdaten gefüttert, ohne explizite Anweisungen oder Labels zu haben, was genau daraus gelernt werden soll. Auf diese Verwechslung hingewiesen antwortet ChatGPT schließlich so:
A: Diese Modelle nutzen nicht direkt unüberwachte Lernmethoden, da sie nicht darauf abzielen, Cluster oder verborgene Strukturen in den Daten ohne jegliche Form von Supervision zu identifizieren. Stattdessen nutzen sie den Text selbst, um Vorhersageaufgaben zu erstellen, die als Selbstüberwachung fungieren.
Verstärkendes Lernen
Eine ganz wesentliche, aber dennoch nur sekundäre und nachgeschaltete Rolle beim Training von Sprachmodellen spielt das Verstärkungslernen (englisch reinforcement learning). Diesem Lernparadigma folgt die sich dem selbstüberwachten Vortraining eines Sprachmodells regelmäßig anschließende Trainingsrunde, die manchmal Finetuning, manchmal Alignment genannt wird, insbesondere, wenn das Sprachmodell als frei zugänglicher Chatbot genutzt werden soll. Während des Alignments werden dem Sprachmodell all die Dinge beigebracht, die über die Vorhersage des nächsten Wortes hinausgehen. Insbesondere Feinheiten der menschlichen Kommunikation und der Dialogführung werden einem Sprachmodell so antrainiert: wie man implizite Aufforderungen durch den Benutzer auch zwischen den Zeilen versteht, wie man Texte gut zusammenfasst, aber vor allem auch, was man sagen darf und wie man sich angemessen ausdrückt – und was und wie auf keinen Fall. Solche Dinge einem Sprachmodell im Rahmen des überwachten Lernens anhand von Beispielen beizubringen, wäre ein Ding der Unmöglichkeit, denn man müsste Myriaden von Textbeispielen in vielfältiger Hinsicht annotieren – wer sollte das tun, und wie? (Um einen möglichen Einwand vorwegzunehmen: auch von generativer KI synthetisierte Textbeispiele würden hier nicht helfen.)
Verstärkungslernen folgt einem anderen Ansatz: Ein zu trainierendes Modell generiert zu einem gegebenen Input einen Output – ein vortrainiertes Sprachmodell zum Beispiel zu einer Frage eine Antwort oder ein Roboter zu einem Zustand seiner Umgebung eine Aktion. Für diese Antwort wird berechnet (oder von einem Menschen bewertet), wie »gut« oder »schlecht« sie war, in irgendeiner entweder berechen- oder einem menschlichen Bewerter erklärbaren Hinsicht. (Berechen- und damit programmierbar hieße »einem Computer erklärbar«.) Diese Qualität wird dem Modell in Form einer positiven oder negativen Zahl als »Belohnung« bzw. »Bestrafung« zurückgegeben. Es weiß dann, welchen »Fehler« es gemacht hat und kann – verkürzt gesagt – seine Gewichte so anpassen, dass es auf denselben Input beim nächsten Mal einen (noch) besseren, also besser belohnten Output liefern würde.
Der wesentliche Unterschied zum überwachten Lernen ist, dass die Belohnung, die als Feedback dient und die Rolle des Labels beim überwachten Lernen spielt, nicht schon vorab bekannt ist (weil sie den Input charakterisiert, der durch den Output »erraten« werden soll), sondern erst im Nachhinein den Output bewertet. Die Belohnung wird also erst zur Laufzeit berechnet und wird nicht wie ein Label dem Input schon mitgegeben. Im klassischen Verstärkungslernen wird die Belohnung (englisch reward) nach einem Algorithmus aus dem Frage-Antwort-Paar berechnet, man braucht zum Training also nur viele Fragen und einen Algorithmus. Wenn es um Belohnungskriterien geht, die sich nicht programmieren lassen, so kann man sie immerhin menschlichen Trainern erklären, die sie dann intuitiv anwenden. Um solche Kriterien handelt es sich bei den oben genannten Beispielen. So ließe sich ein Sprachmodell also theoretisch auch direkt durch Menschen trainieren, indem diese die Belohnung zum Beispiel auf einer Skala von -10 bis +10 für jede vom Sprachmodell generierte Antwort von Hand vergeben. Es ist offensichtlich, dass dieses Vorgehen für große Sprachmodelle, die zuvor auf gigantischen Textmengen vortrainiert wurden, keine merklichen Spuren hinterlassen könnte, wenn nicht mit buchstäblich Heerscharen menschlicher Trainer monate-, wenn nicht jahrelang im Rund-um-die-Uhr-Betrieb gearbeitet würde – was nicht möglich ist. Um dem beizukommen, kann man aber vorab in kleinerem Rahmen sogenannte Reward-Modelle trainieren, die selbst wieder neuronale Netze sind, die die Kriterien, nach denen die Menschen intuitiv bewerten, von diesen recht schnell erlernen können. Die Reward-Modelle berechnen dann später die Belohnung nicht nach einem Algorithmus, sondern vergeben sie wie ein Mensch »intuitiv« und aus ihren Synapsen heraus – nur viel schneller und ohne zu ermüden. Das ist dann, wie man sagt, skalierbar. Auf diese Form von Verstärkungslernen durch (indirektes) menschliches Feedback (englisch reinforcement learning by human feedback, RLHF) kommen wir in einem eigenen Kapitel noch einmal zurück.
Beim Verstärkungslernen spielt die Belohnung die Rolle des Labels beim überwachten Lernen. Anders als beim überwachten Lernen sind die Belohnung und der Output jetzt aber keine vergleichbaren Größen mehr, deren Differenz sich als Fehler verstehen ließe, der zum Zwecke der Gewichtsanpassung im Netz zurückpropagiert werden könnte. An dieser Stelle wird Verstärkungslernen – so einfach und naheliegend seine Idee auf den ersten Blick erscheint – konzeptionell und technisch recht anspruchsvoll. Vor allem die Frage, welche Vergleichsgröße sich auf welche Weise berechnen lässt, aus deren Differenz zur gegebenen Belohnung ein Fehler resultiert, ist nicht leicht zu beantworten, und wir können das an dieser Stelle nur andeuten. Damit wie beim überwachten Lernen die Differenz zwischen dem vom Modell vorhergesagtem und dem richtigen Label berechnet werden kann, muss beim Verstärkungslernen das Modell neben seinem eigentlichen Output auch noch eine Belohnung vorhersagen (englisch predicted reward), der dann mit der tatsächlichen Belohnung verglichen wird. Daraus ergibt sich ein Vorhersagefehler, der wie im Falle des überwachten Lernens zur Gewichtsanpassung per Backpropagation dient. Das ist die zugegebenermaßen nicht mehr ganz leicht nachvollziehbare Quintessenz des Verstärkungslernens.
Wenn überwachtes Lernen als Lernen durch Beispiele und unüberwachtes Lernen als Lernen durch (selbständiges) Entdecken charakterisiert werden kann, so ist die beste Charakterisierung des Verstärkungslernens die des Lernens durch Versuch und Irrtum, oder auch »Learning by doing«. Verstärkungslernen lag vor dem Aufkommen der Sprachmodelle, die seitdem viel Aufmerksamkeit auf sich ziehen, den beeindruckendsten Leistungen künstlicher Intelligenz zugrunde, insbesondere in der Robotik (mitunter allerdings nur der virtuellen), beim selbständigen Fahren und in Spielen wie Schach und Go. Genannt sei hier nur die DeepMind/Google-KI AlphaZero, die durch Versuch und Irrtum Schach, Go und Shogi (japanisches Schach) auf Großmeisterniveau zu spielen lernte. Die Bedeutung des Verstärkungslernens für Sprachmodelle ist hingegen nicht im engeren Sinne wesentlich. Denn die Regeln der Sprache und ihr Weltwissen lernen Sprachmodelle tatsächlich auch ohne Verstärkungslernen, allein durch das selbstüberwachte Lernen über viele Texte.
Transfer-Lernen
Beim Transfer-Lernen wird ein Modell, das für einen Aufgabentypus trainiert wurde, gezielt angepasst, um einen anderen, aber ähnlichen Aufgabentypus zu lösen. Dabei macht man sich zunutze, dass das Modell Fähigkeiten, die es für die eine Art von Aufgaben erworben hat, auf die andere übertragen kann. Was Sprachmodelle betrifft, so werden sie nicht gezielt und explizit einem Transfer-Lernprozess oder -Training ausgesetzt. Für Sprachmodelle findet Transfer-Lernen vielmehr implizit und spontan statt. Es stellt sich einfach heraus, dass – insbesondere sehr große – Sprachmodelle Wissen und Fähigkeiten, die sie in einem Bereich während des Vortrainings in hohem Maße erworben haben, auf andere Bereiche übertragen können, über die in ihren Trainingstexten eher wenig oder überhaupt nichts zu finden war. Das deutlichste Beispiel für diese Art von implizitem Transfer-Lernen – das in dieser Form nicht in den Kanon der gezielt eingesetzten maschinellen Lerntechniken gehört – ist die Tatsache, dass ein Sprachmodell wie ChatGPT seltene Sprachen deutlich besser beherrscht, als es ihr Anteil an den Trainingsdaten vermuten ließe. Das liegt daran, dass es gewisse universelle Regeln der menschlichen Sprache – um nicht von einer Universalgrammatik zu sprechen – von den häufigen Sprachen wie Englisch auf die seltenen übertragen kann. Dass Sprachmodelle sehr gut im Denken und Verwenden von Analogien sind, kann als weiterer Ausdruck von Transfer-Lernen verstanden werden.
Fehler und Verlust
die es beim maschinellen Lernen, insbesondere beim überwachten und beim verstärkenden Lernen zu reduzieren bzw. zu minimieren gilt. Wie diese Größe definiert ist, und wie sie als Funktion – meistens spricht man insbesondere von der Verlustfunktion (englisch loss function) – von den Aktivitäten der Neuronen und den Synapsen abhängt, hängt wiederum von der Trainingsmethode und dem Trainingsziel ab. Die Kreuzentropie-Verlustfunktion (englisch cross entropy loss) ist besonders nützlich beim überwachten Trainieren von Klassifizierungsmodellen, wo sie falsche Klassifizierungen stärker »bestraft«, wenn das Modell sich seiner falschen Vorhersagen sicher ist. Diese Eigenschaft fördert, dass das Modell sowohl genau als auch zuversichtlich in seinen Vor- hersagen ist. (Der Kreuzentropie werden wir im Kapitel über das Vortraining von Sprachmodellen wiederbegegnen.)
Die Idee der Minimierung eines Vorhersagefehlers, der auch im Verstärkungslernen eine Rolle spielt (wo der Fehler in der Differenz zwischen Belohnung und erwarteter Belohnung besteht), kann man auch in der Gehirnforschung wiederfinden, wo sie dem Konzept des sogenannten Predictive Coding (deutsch »vorhersagende Kodierung«) zugrunde liegt. Demnach ist das menschliche Gehirn auf vielen Ebenen und auf viele Weisen dar- auf ausgerichtet, Ereignisse, »Belohnungen« und »Bestrafungen«, aber auch eigenes Verhalten vorherzusagen und dabei seine Vorhersagefehler, die als »Überraschungen« interpretiert werden, möglichst klein zu halten. Aber das müsste Gegenstand eines eigenen Buches sein.
Leider endet die Leseprobe an dieser Stelle. Das Buch »Sprachmodelle Verstehen« bietet den Rest des Kapitels und mehr.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.