Leseprobe »Sprachmodelle Verstehen«: Womit werden Sprachmodelle trainiert?
Womit werden große Sprachmodelle trainiert?
Die Theorie der Auswahl von Trainingstexten für ein großes Sprachmodell liest sich einfach und plausibel, so plausibel, wie es für die Antworten von großen Sprachmodellen typisch ist:
F: Welche Kriterien leiten die Auswahl von Texten für das Training eines großen Sprachmodells?
A: Die Auswahl von Texten für das Training eines großen Sprachmodells wie GPT-4 wird von verschiedenen Kriterien geleitet, die darauf abzielen, ein effektives, vielseitiges und verantwortungsbewusstes Modell zu entwickeln:
Relevanz und Vielfalt: Die Textauswahl sollte eine breite Palette von Themen abdecken, um die Vielseitigkeit des Modells zu gewährleisten. Dazu gehören Literatur, Wissenschaft, Kunst, Nachrichten und viele andere Bereiche, um eine umfassende Wissensbasis zu schaffen.
2. Qualität und Zuverlässigkeit: Hochwertige, gut geschriebene und zu- verlässige Quellen werden bevorzugt, um die Genauigkeit und Verlässlichkeit der Modellantworten zu gewährleisten. Dies umfasst Texte, die klar, kohärent und gut recherchiert sind.
3. Aktualität: Besonders für Bereiche, in denen Aktualität wichtig ist (z.B. Nachrichten, Technologie, Wissenschaft), ist es wichtig, dass die Trainings- daten aktuelle Informationen enthalten.
4. Ethik und Fairness: Bei der Auswahl der Trainingsdaten wird darauf geachtet, Verzerrungen zu minimieren und ethische Standards zu wahren. Texte, die Hassrede, Diskriminierung oder irref ührende Informationen ent- halten, werden vermieden, um keine voreingenommenen oder schädlichen Antworten zu fördern.
5. Sprachliche Vielfalt: Um ein mehrsprachiges Modell zu trainieren, werden Texte in verschiedenen Sprachen und Dialekten einbezogen. Dies erhöht die linguistische Reichweite und die Fähigkeit des Modells, in verschiedenen Sprachen zu interagieren.
6. Urheberrechte: Die Auswahl der Texte berücksichtigt auch urheber- rechtliche Beschränkungen. Es wird darauf geachtet, dass die Verwendung der Texte rechtlich zulässig ist.
Datenschutz: Persönliche Informationen und Texte, die sensible Daten enthalten könnten, werden vermieden, um die Privatsphäre der Individuen zu schützen.
Diese Kriterien helfen dabei, ein leistungsfähiges und ethisch verantwortungsbewusstes Sprachmodell zu entwickeln, das auf einer soliden und diversen Wissensbasis aufbaut.
Noch schwieriger ist es für Außenstehende, einen genaueren und tieferen Einblick in einen solchen Trainingskorpus zu erlangen und zu prüfen, wie gut die obigen Kriterien erfüllt sind. Die Trainingskorpora großer, zumal kommerzieller Sprachmodelle sind nämlich ausnahmslos Verschlusssache, und nur sehr oberflächliche Einblicke werden gewährt. Wie der Output von Sprachmodellen mit ihren Trainingsdaten korreliert, lässt sich so nicht feststellen. Eine tabellarische Übersicht wie die, die Meta (die Firma hinter Facebook und WhatsApp) letztes Jahr für sein Sprachmodell LLaMA (Large Language Model Meta AI) veröffentlicht hat, ist oft alles, was man findet:
Wichtiger als die reine Menge an Text ist natürlich die Qualität der Texte, und das ist – neben der (energie-)technisch notwendigen Reduktion der Trainingslast – ein weiterer Grund, ein Sprachmodell nicht mit sämtlichen Texten des Internet zu trainieren, sondern nur mit den »guten«. Trotzdem ist es wichtig, beim Training auch Texte geringer – vor allem sprachlicher – Qualität zu verwenden, um nämlich später auch mit fehlerhaften und »schlampig« geschriebenen Prompts und Texten zurecht zu kommen. An solchen Texten herrscht im Internet allerdings kein Mangel, und ein Korpus wie CommonCrawl enthält sie in ausreichendem Maße. Um im Heuhaufen von CommonCrawl aber gezielt – und ohne inhaltliche Analyse – auch inhaltlich »höherwertige« Texte zu finden, bedienen sich die Entwickler/Trainer teils etwas fragwürdiger Tricks. So hat zum Beispiel OpenAI all die Webseiten als »hochwertig« eingestuft und unter dem Namen »WebText2« in den Trainingskorpus von GPT aufgenommen, die von »vertrauenswürdigen« Nutzern des populären Diskussionsnetzwerk Reddit als verlinkenswert erachtet wurden.
F: Was bedeutet »verlinkenswert»?
A: Das Wort »verlinkenswert« ist ein Neologismus im Deutschen, der sich aus den Worten »verlinken« und »wert« zusammensetzt. Es bedeutet, dass etwas – in der Regel ein Inhalt im Internet wie ein Artikel, ein Video oder ein Bild – von solcher Qualität oder Relevanz ist, dass es sich lohnt, darauf zu verlinken. Im Kontext des Internets und sozialer Medien weist es darauf hin, dass der betreffende Inhalt als interessant, informativ oder unterhalt- sam genug angesehen wird, um ihn mit anderen zu teilen oder auf einer Webseite oder in sozialen Netzwerken zu verlinken.
Bei der Auswahl von Texten für den Trainingskorpus wird aber nicht nur auf Qualität geachtet, sondern auch darauf, eine unter Umständen höhere Repräsentativität und Ausgewogenheit zu erzielen, als sie im Internet – und seinem Abbild, dem CommonCrawl-Korpus – gegeben ist, sowohl thematisch als auch – und vor allem – sprachlich und im weitesten Sinne kulturell. Wie gut das den Sprachmodell-Entwicklern gelingt, bleibt allerdings ihr gut gehütetes Geheimnis. Auch, wie gut es ihnen gelungen ist, Textdubletten (die dazu führen, dass bestimmte Dinge stärker gelernt werden, als es ihnen zusteht) und Testbeispiele (die dazu führen, dass Sprachmodelle durch Auswendiglernen besser bei Tests abschneiden) zu entfernen. Wichtiger noch sind aber die letzten beiden Punkte, die ChatGPT eingangs bereits genannt hat: Die Entfernung von urheberrechtlich geschützten Texten und – aus Datenschutzgründen – personenbezogenen Daten aus dem Trainingsmaterial.
Wir kommen in diesem Zusammenhang noch einmal auf die in den obigen Tabellen erwähnten Bücher zurück. Dahinter verbergen sich für GPT zwei unter den Namen Books 1 und Books 2 bekannte Sammlungen vor allem gemeinfreier Bücher und für LLaMA die Sammlung Books 3.
Von dieser musste Meta erst kürzlich (Januar 2024) zugeben, dass unter ihren knapp 200 000 Büchern auch etliche raubkopierte Bücher enthalten sind. Das ist auch für Books 1 und 2 nicht auszuschließen, kann aber nicht einfach nachgeprüft werden, weil all diese Sammlungen nicht gut dokumentiert sind.
Interessant ist allemal die Zusammensetzung dieser Bibliotheken nach Genres, die trotzdem abgeschätzt werden kann. Wenn man der Analyse von Jack Bandy in folgen darf, dann sind fast ein Viertel dieser Bücher Liebesromane (englisch romance), gefolgt von Fantasy- und Science- Fiction-Literatur (zusammen ca. ein Fünftel). Das durchschnittliche literarische Niveau darf also nicht zu hoch eingeschätzt werden, und die Mehrzahl der Bücher in den Books-Sammlungen ist wohl eher der Trivialliteratur zuzurechnen.
Echte »Weltliteratur«, zumal die gemeinfreie, stammt vor allem aus der Sammlung Gutenberg, die für den Korpus »The Pile« explizit neben Books 3 und einem BookCorpus 2 aufgelistet wird. Warum überhaupt Bücher – und hier ist vor allem von belletristischen Büchern, also im Wesentlichen von Romanen die Rede – für das Training von Sprachmodellen so wichtig sind, ist eine spannende Frage. Zum einen natürlich aus sprachlichen Gründen: Die im wahrsten Sinne des Wortes diversen Sprachen der Literatur (und nicht notwendigerweise nur der hohen) als mehr oder weniger elaborierte Schriftsprachen zu kennen, schärft das Sprachverständnis und die Ausdrucksmöglichkeiten von Sprachmodellen. Aber auch das Weltwissen, das in Romanen kodiert ist, und das oft ein subtiles – vor allem psychologisches, soziales, ja gar philosophisches – Alltagswissen umfasst, das sonst nirgendwo niedergeschrieben ist, macht Bücher zu einer unersetzlichen Quelle für Sprachmodelle.
Das lässt einen an einen idealen Trainingskorpus denken, der buchstäblich alle Werke der Welt-, aber auch Regionalliteratur umfasst (in denen Lebenspraxis beschrieben wäre), ergänzt um sämtliche Lehr- und Fachbücher dieser Welt (in denen die Theorie beschrieben wäre). Wie viel an Weltwissen und Menschenkenntnis würde dieser Korpus enthalten und könnte er einem mit ihm trainierten Sprachmodell vermitteln! Doch ob dieses dadurch wirklich zu einer Art lebensweisem Universalgelehrten würde, ist nicht ausgemachte Sache, und ob man ihn um guten Rat fragen könnte, auch nicht. Aber das sind theoretische Betrachtungen, deren Realisierung ohnehin nicht betrieben wird.
F: Wäre ein Sprachmodell, das mit sämtlichen Werken der Weltliteratur, aber auch mit sämtlichen Lehr- und Fachbüchern dieser Welt trainiert worden wäre, wünschenswert, sinnvoll, aber auch machbar?
A: Ein Sprachmodell, das mit sämtlichen Werken der Weltliteratur sowie allen Lehr- und Fachbüchern trainiert worden wäre, klingt in der Theorie sehr verlockend, da es ein enormes Wissen und eine breite Perspektive bieten würde. Jedoch gibt es verschiedene Aspekte, die bei dieser Idee zu ber ücksichtigen sind:
1. Wünschenswert: In vielen Fällen wäre ein solches Modell durchaus wünschenswert, da es eine umfassende Wissensbasis hätte und dadurch in der Lage wäre, auf eine Vielzahl von Anfragen kompetente Antworten zu geben. Es könnte ein breites Spektrum an Themen abdecken und dabei helfen, Wissen zugänglicher zu machen.
2. Sinnvoll: Ob das Modell sinnvoll wäre, hängt von seinem Einsatzgebiet ab. In akademischen oder spezialisierten beruflichen Kontexten könnte es äußerst nützlich sein, da es Zugriff auf ein breites Spektrum an Fachwissen ermöglichen würde. Für allgemeine oder unterhaltende Zwecke könnte es jedoch zu komplex oder überladen sein, was die Benutzerfreundlichkeit beeinträchtigen könnte.
3. Machbar: Hier stoßen wir auf mehrere Herausforderungen. Die erste betrifft die Verfügbarkeit der Daten. Nicht alle Werke, insbesondere die neuesten oder spezialisierten akademischen Texte, sind digital verfügbar oder frei zugänglich. Zweitens gibt es urheberrechtliche Einschränkungen, die verhindern, dass viele Texte legal für das Training von Modellen verwendet werden können. Technisch gesehen ist es auch eine Herausforderung, ein Modell mit einer derart umfangreichen und vielfältigen Datenmenge zu trainieren und zu verwalten, wobei auch Aspekte wie die Relevanz und Aktualität der Informationen sorgfältig berücksichtigt werden müssen.
Zusammenfassend ist die Idee faszinierend und hat großes Potenzial, bringt aber auch eine Reihe von praktischen und ethischen Herausforderungen mit sich, die sorgfältig angegangen werden müssen.
Ein anderes Ideal läge schon eher im Bereich des technisch Möglichen, aber auch dieses wird nicht verfolgt. Was sich zumindest der Autor dieses Buches wünschen würde, wäre eine saubere und vieldimensionale Aufschlüsselung aller Trainingstexte eines Sprachmodells – u.a. nach Länge, Sprache, Thema und Quelle –, die noch dazu im Volltext durchsuchbar wären. Man könnte dann zum Beispiel für jedes Textfragment prüfen, ob und wie oft es in den Trainingsdaten enthalten war, und dabei gewiss spannende Entdeckungen machen. In Ermangelung dessen muss man sich – wie wir es für dieses Buch getan haben – damit zufriedengeben, eine Internet-Suchmaschine zu verwenden, die aber im gesamten Internet sucht und nicht nur in der – am Ende vergleichsweise kleinen – Auswahl, die für das Training eines Sprachmodells verwendet wird, und naturgemäß nicht in den Texten, die nicht aus dem Internet stammten. Die erwähnte Aufschlüsselung wiederum würde einem ein Gefühl dafür vermitteln, wie das Wissen oder Nicht-Wissen eines Sprachmodells zu erklären und verstehen ist, und ein Verständnis für seine unvermeidlichen Voreingenommenheiten und Prägungen. Doch auch das ist ein frommer Wunsch, und die Mühe, einen Trainingskorpus auf diese Weise aufzubereiten und zugänglich zu machen, erscheint denen, die sie sich machen müssten, wahrscheinlich als nicht lohnenswert. Vielleicht aber fürchten sie auch nur, dass man ihnen dadurch zu tief in die Karten blicken könnte.
Das Vokabular von ChatGPT
Auch wenn man es als Nutzer normalerweise nicht zu Gesicht bekommt, so liegt einem Sprachmodell wie ChatGPT immer ein wohldefiniertes und unveränderliches Vokabular an Token zu Grunde. Im Falle von ChatGPT umfasst es ziemlich genau 100 000 Einträge. Andere Sprachmodelle verwenden kleinere Vokabulare, nur wenige noch größere. Die Zahl 100 000 hat sich im Falle von ChatGPT als ausreichend und gewissermaßen optimal erwiesen. Welche Token das Vokabular enthält, ergibt sich in der Praxis weniger aus linguistischen Überlegungen (die zur Wahl von Morphemen als kleinsten Bausteinen geführt hätte) als aus statistischen Überlegungen. Möglichst lange Buchstabenfolgen, die häufig in den Trainingstexten vorkommen, werden ins Vokabular aufgenommen. Bei langen häufigen Buchstabenfolgen handelt es sich naturgemäß bereits um vollständige Worte, denn lange Morpheme und lange sinnlose Buchstabenfolgen, die häufig vorkommen, gibt es nicht. Kurze sinnlose Buchstabenfolgen schaffen es hingegen ins Vokabular, wenn man sie oft braucht, um Worte in seltenen Sprachen zusammenzustückeln oder um Tippfehler abzufangen. Für den Fall, dass alle Stricke reißen, enthält das Vokabular deshalb alle Buchstaben des lateinischen, aber auch des griechischen und kyrillischen Alphabets, in Groß- und in Kleinschreibung. Auch Ziffern und bis zu dreistellige Zahlen sind enthalten, interessanterweise aber keine einzige vierstellige, also insbesondere keine Jahreszahl, nicht einmal so häufig vorkommende wie 1492, 1776, 1789 oder 1945. Grundsätzlich sollen die Token ausreichen, um möglichst viele Texte (als Zeichenketten betrachtet) aus ihnen zusammensetzen zu können. Dass man sich nicht mit Buchstaben allein zufriedengibt, die das ja ebenfalls leisten würden, sondern möglichst lange Token verwenden möchte, hat zwei Gründe. Zum einen können längere Token, die wie gesagt im Allgemeinen bereits Worte sind, besser mit Bedeutung aufgeladen werden als kürzere und sinnlose. Zum anderen erspart es Rechenzeit, weil die Rechenzeit, die zur Verarbeitung eines Textes benötigt wird, quadratisch mit der Zahl der Token wächst. Beide Gründe zusammengenommen zeigen eine immanente Ungerechtigkeit von Sprachmodellen gegenüber Nutzern und Sprechern von Sprachen, die seltener in den Trainingstexten vorkommen als Englisch, dass das Vokabular von ChatGPT dominiert.
Zum einen sind ChatGPTs Textanalyse- und -synthese-Ergebnisse in selteneren Sprachen aufgrund der geringeren Zahl an Trainingstexten grundsätzlich von geringerer Qualität, aber noch zusätzlich deshalb, weil ihre Worte meist aus vielen (bedeutungslosen) Buchstaben zusammengesetzt werden müssen, wodurch sie vom Sprachmodell schlechter »verstanden« werden. Im schlimmsten Falle werden Zeichenfolgen, die gar nicht aus den vorhandenen Buchstaben oder Zeichen einer Schrift zusammengesetzt werden können, auf das spezielle Token »Unbekannt« abgebildet und Texte dadurch noch schlechter verstanden. Das ist im Falle von ChatGPT für fast alle Sprachen, die nicht das lateinische Alphabet verwenden, der Fall, allen voran Arabisch und Chinesisch. Zudem müssen Nutzer, die ein kommerzielles Sprachmodell wie GPT-4 (das ChatGPT zugrunde liegt) über eine Programmierschnittstelle verwenden – zum Beispiel Entwickler von Apps, die auf dem Sprachmodell aufsetzen – pro gelesenem und generierten Token an den Sprachmodellanbieter bezahlen. Und da fällt es durchaus ins Gewicht, ob das Wort »disproportionately« aus nur einem Token besteht, oder »un-ver-h-äl-tn-ism-äß-ig« aus acht.
Ein für seine Länge bekanntes deutsche Wort – ein Wort – besteht aus Sicht von ChatGPT aus 28 für sich meist bedeutungslosen Token. Dennoch versteht ChatGPT dieses Wort gut. Es ist aber vergleichsweise »teuer«, verglichen mit seiner englischen Übersetzung, die nur aus sieben Token besteht (»beef labeling supervision duties delegation law«)
F: Erläutere das Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz.
A: Das Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz ist ein deutsches Gesetz, das die Überwachung und Kontrolle der Etikettierung von Rindfleisch regelt. Es wurde erlassen, um sicherzustellen, dass Verbraucherinnen und Verbraucher korrekte und verlässliche Informationen über die Herkunft und Qualität von Rindfleisch erhalten. [. . . ] Insgesamt dient das Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz dazu, die Transparenz und Verlässlichkeit bei der Etikettierung von Rindfleischprodukten zu gewährleisten und das Vertrauen der Verbraucherinnen und Verbraucher in die Lebensmittelindustrie zu stärken.
Das Vokabular eines Sprachmodells wird zusammengestellt, bevor das eigentliche Training des Sprachmodells beginnt. Dafür werden die künftigen Trainingstexte vorab statistisch analysiert und eine Liste von Token (also Buchstabenfolgen) erstellt, die möglichst viele möglichst lange häufig vorkommende Buchstabenfolgen enthält, sodass zusammen mit den verbleibenden kürzeren Token (um auf 100 000 zu kommen) möglichst viele Texte möglichst vollständig zusammengesetzt werden können. Hier einige kurze »bedeutungslose« Token (die also inbesondere keine Morpheme sind). Von solchen gibt es im Vokabular von ChatGPT Tausende.
Ist das Vokabular erst einmal definiert, werden später alle Texte, die ein Sprachmodell zu lesen bekommt – sei es während des Trainings oder zur Laufzeit – in die Token dieses Vokabulars zerlegt, was aber dank des »Unbekannt«-Tokens immer möglich ist.
Leider endet die Leseprobe an dieser Stelle. Das Buch »Sprachmodelle Verstehen« bietet den Rest des Kapitels und mehr.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.