Direkt zum Inhalt

Sprachmodelle: Ist bei einer KI größer immer besser?

Generative KI-Modelle wie ChatGPT werden immer größer und leistungsfähiger. Geht das nicht auch schlanker? Einige Wissenschaftler fordern kleinere, energieeffizientere Systeme.
Zwei Gehirne auf blauem Hintergrund
Künstliche neuronale Netze ahmen die Struktur des Gehirns nach. Doch noch verbrauchen sie ein Vielfaches der Energie, die ein echtes Gehirn benötigt.

Sie sind die neuen Lieblinge der Tech-Branche: Systeme des maschinellen Lernens, die Texte ausgeben können wie ChatGPT von OpenAI. Allerdings haben sie eine Schwäche: Mathe. Bei mathematischen Fragen, die logisches Denken erfordern, versagen große Sprachmodelle (Large Language Models, LLMs). Beispielsweise beim folgenden Algebra-Problem:

Eine Linie parallel zu y = 4·x + 6 verläuft durch den Punkt mit den Koordinaten (5; 10). Wie lautet die y-Koordinate des Punktes, an dem diese Linie die y-Achse schneidet?

Obwohl LLMs diese Art von Fragen manchmal richtig beantworten können, liegen sie in der Mehrheit der Fälle daneben. Als ChatGPT Anfang 2023 mit einer Auswahl von Fragen aus dem »MATH«-Datensatz mit mathematischen Problemen auf Sekundarschulniveau auf seine logischen Fähigkeiten getestet wurde, erreichte es nur 26 Prozent.

Das war nicht überraschend: Schließlich generiert ein LLM die Antwort auf einen Eingabetext auf Basis statistischer Wahrscheinlichkeiten, mit denen Wörter, Symbole und Sätze in den Trainingsdaten des Modells vorkommen. Es wäre verblüffend, wenn LLMs mathematische Zusammenhänge allein aus Sprachmustern lernen würden.

Führt allein Mustererkennung zu logischem Denken?

Allerdings hat bereits im Juni 2022 ein Sprachmodell von Google namens Minerva die gleiche Aufgabe erfolgreicher gemeistert: Minerva löste 50 Prozent der Fragen, die ihm aus dem MATH-Datensatz vorgelegt wurden – ein Ergebnis, das viele KI-Forscher geradezu schockierte. »Die Fachwelt bewertet das als erstaunlich«, sagt Sébastien Bubeck, ein Spezialist für maschinelles Lernen bei Microsoft Research.

Minerva hatte allerdings auch einen Vorteil: Die Trainingsdaten bestehen aus mathematikbezogenen Texten. Und es gibt einen weiteren Grund, der für den Erfolg verantwortlich sein könnte: die schiere Größe von Minerva. Das Sprachmodell ist etwa dreimal so groß wie das Modell hinter ChatGPT. Tatsächlich vermuten Forscherinnen und Forscher schon länger, dass größere LLMs allein durch Mustererkennung in möglichst großen Datenmengen lernen können, Aufgaben zu lösen, die eigentlich logisches Denken erfordern. Ist also diese »Umso-größer-desto-besser«-Strategie der Weg zu einer noch leistungsfähigeren KI?

Es gibt ebenso gute Gründe, an dieser Theorie zu zweifeln. LLMs machen schließlich immer noch eklatante Fehler. Manche Fachleute vermuten, dass größere Modelle lediglich solche Fragen besser beantworten, die in ihren Trainingsdaten häufiger vorkommen beziehungsweise – zu denen die Modelle Korrelationen in den Daten finden können – dass sie jedoch nicht lernen, völlig neue Fragen zu beantworten.

Große Modelle gleich mehr wirtschaftlicher Erfolg

Die Debatte über die Grenzen von KI ist angesichts der neuesten Entwicklungen in vollem Gange. Und auch wenn es in der Forschung noch offene Fragen dazu gibt: Kommerzielle Unternehmen erzielen mit größeren KI-Modellen bessere Ergebnisse. Von daher folgt es einer gewissen Logik, dass sie immer größere LLMs auf den Markt bringen in der Hoffnung auf noch mehr Erfolg. Training und Betrieb dieser LLMs kosten allerdings Millionen und verbrauchen viel Energie. Dazu kommen Zweifel an der Korrektheit ihrer Antworten und Bedenken, dass sie die Verbreitung von Fehlinformationen verstärken könnten.

Je größer, desto besser?

Kritiker argumentieren, dass große LLMs letztlich nie in der Lage sein werden, logische Probleme konsistent zu lösen. Eine kleinere, energieeffizientere KI sei der richtige Weg, um Fortschritte zu erzielen – zum Teil inspiriert durch unser Gehirn und die Art und Weise, wie es zu lernen und Verbindungen zwischen den Neuronen herzustellen scheint.

LLM wie ChatGPT und Minerva sind riesige Netzwerke von Recheneinheiten (auch künstliche Neuronen genannt), die in Schichten angeordnet sind. Die Größe eines LLM wird an der Anzahl seiner Parameter gemessen. Das sind veränderbare Werte, die die Stärke der Verbindungen zwischen den Neuronen beschreiben. Beim Training eines solchen Netzwerks lernt es, bereits bekannte Sätze zu vervollständigen (also das fehlende Wort vorherzusagen beispielsweise) und die Parameter so zu verändern, dass der Algorithmus beim nächsten Mal etwas besser abschneidet.

LLMs lernen Verzerrungen

Wenn man dies mit Milliarden von Sätzen wiederholt, die von Menschen geschrieben wurden, lernt das neuronale Netz interne Repräsentationen, die modellieren, wie Menschen schreiben. Die Verbindungen zwischen den Neuronen werden also so gewichtet, dass es Texte produzieren kann, indem es stets das nächste Wort oder die nächste Phrase vorhersagt, die wahrscheinlich auf das vorige Wort folgen. In diesem Stadium wird ein LLM als vortrainiert bezeichnet: Seine Parameter erfassen die statistische Struktur der geschriebenen Sprache, die es während des Trainings gesehen hat, einschließlich aller Fakten, Verzerrungen und Fehler in den Texten. Anschließend kann es anhand spezieller Daten »feinabgestimmt« werden – auf Englisch »fine-tuning«.

Für die Entwicklung von Minerva haben die Forscher zum Beispiel mit dem Pathways Language Model (PaLM) von Google begonnen, das 540 Milliarden Parameter hat und mit einem Datensatz von 780 Milliarden Token trainiert wurde. Ein Token kann ein Wort, eine Ziffer oder eine Informationseinheit sein; im Fall von PaLM wurden die Token aus Webseiten, Büchern und Programmiercode entnommen. Minerva ist das Ergebnis einer Feinabstimmung von PaLM auf Milliarden von Token aus wissenschaftlichen Abhandlungen und mathematikbezogenen Webseiten.

Minerva kann Fragen beantworten wie: Was ist das größte Vielfache von 30, das kleiner als 520 ist? Das LLM scheint die Schritte zu durchdenken, und doch ist alles, was es tut, die Fragen in eine Sequenz von Token zu verwandeln, ein statistisch plausibles nächstes Token zu generieren, es an die ursprüngliche Sequenz anzuhängen, ein weiteres Token zu generieren und so weiter. Ein Prozess, der Inferenz genannt wird.

Je größer, desto besser?

Die Google-Forscher nahmen eine Feinabstimmung von Minerva in drei Größen vor, indem sie die zu Grunde liegenden vortrainierten PaLM-Modelle mit 8 Milliarden, 62 Milliarden und 540 Milliarden Parametern verwendeten. Die Leistung von Minerva verbesserte sich mit zunehmender Größe. Im gesamten MATH-Datensatz erreichte das kleinste Modell eine Genauigkeit von 25 Prozent, das mittlere Modell 43 Prozent und das größte Modell überschritt die 50-Prozent-Marke.

Für das größte Modell wurde auch die geringste Menge an Feinabstimmungsdaten verwendet – es wurde mit nur 26 Milliarden Token feinabgestimmt, während das kleinste Modell 164 Milliarden Token berücksichtigte. Das größte Modell benötigte jedoch einen Monat für die Feinabstimmung, und zwar auf Spezialhardware, die achtmal so viel Rechenkapazität hatte wie das kleinste Modell, das nur zwei Wochen lang feinabgestimmt wurde. Idealerweise hätte das größte Modell mit deutlich mehr Token abgestimmt werden sollen, sagt Ethan Dyer von Google Research in Kalifornien: Dann wäre es vermutlich noch leistungsfähiger gewesen. Aber das Team hatte entschieden, dass der Rechenaufwand dafür zu hoch war.

Mehr Trainingsdaten oder mehr Parameter?

Das größte Minerva-Modell steht im Einklang mit den Ergebnissen aus Studien, die Skalierungsgesetze aufgedeckt haben – Regeln, die bestimmen, wie sich die Leistung mit der Modellgröße verbessert. Eine Studie aus dem Jahr 2020 zeigte, dass Modelle besser abschnitten, wenn sie eine der folgenden drei Bedingungen erfüllten: mehr Parameter, mehr Trainingsdaten oder mehr Rechenleistung (die Anzahl der während des Trainings ausgeführten Rechenoperationen). Die Leistung steigt dabei exponentiell.

Rätselhafte Skalierungsgesetze

Die Forscher wissen jedoch nicht genau, warum. »Die Gesetze sind rein empirisch«, sagt Irina Rish, Informatikerin an der University of Montreal und am Quebec Artificial Intelligence Institute. Um die besten Ergebnisse zu erzielen, so das Ergebnis der Studie aus dem Jahr 2020, sollte die Modellgröße um das Fünffache vergrößert und die Trainingsdaten verdoppelt werden. Das war in der Praxis bei einigen Fällen im Jahr 2022 allerdings anders: Das Londoner KI-Unternehmen DeepMind beispielsweise entdeckte im März bei der Arbeit an verschieden großen Modellen, dass es besser funktionierte, die Modellgröße und die Trainingsdaten gemeinsam zu erhöhen, und dass kleinere Modelle, die mit mehr Daten trainiert werden, bessere Ergebnisse erzielen als größere Modelle, die mit weniger Daten trainiert werden. Das Modell Chinchilla von DeepMind etwa hat 70 Milliarden Parameter und wurde mit 1,4 Billionen Token trainiert, während das Modell Gopher mit 280 Milliarden Parametern mit 300 Milliarden Token trainiert wurde. Chinchilla übertrifft Gopher bei Aufgaben, mit denen bewertet werden soll, was das LLM gelernt hat.

Wissenschaftler von Meta Research bauten im Februar 2022 auf diesem Konzept auf und entwickelten ein eigenes Modell mit kleinen Parametern namens LLaMA, das auf bis zu 1,4 Billionen Token trainiert wurde. Die 13-Milliarden-Parameter-Version von LLaMA übertraf laut den Forschern den ChatGPT-Vorläufer GPT-3 (175 Milliarden Parameter), während die 65-Milliarden-Parameter-Version mit Chinchilla und sogar PaLM konkurrieren konnte. Und schließlich berichtete Ethan Caballero von der McGill University in Montreal im Oktober 2022 zusammen mit Rish und anderen, dass er komplexere Beziehungen zwischen Größe und Leistung gefunden hat. In einigen Fällen können mehrere Potenzgesetze bestimmen, wie die Leistung mit der Modellgröße skaliert, schreiben die Forscher.

In einem hypothetischen Szenario, das auf einer von ihnen gefundenen allgemeinen Gleichung aufbaut, verbessert sich die Leistung zunächst allmählich und dann schneller mit der Größe des Modells, sinkt dann aber leicht, wenn die Zahl der Parameter weiter steigt, bevor sie wieder zunimmt. Die Merkmale dieser komplexen Beziehung hängen von den Besonderheiten jedes Modells ab und der Art und Weise, wie es trainiert wird. Die Hoffnung: diese Rahmenbedingungen künftig vorhersagen zu können, wenn ein bestimmtes LLM hochskaliert wird.

Größe garantiert nicht Robustheit

Und es gibt eine weitere theoretische Erkenntnis, die das Streben nach größeren Modellen unterstützt – ein »Gesetz der Robustheit« für das maschinelle Lernen, das 2021 von Sébastien Bubeck und Mark Sellke, einem Statistiker an der Stanford University in Kalifornien, eingeführt wurde. Ein Modell gilt dann als robust, wenn seine Antworten trotz kleiner Störungen in den Eingaben konsistent bleiben. Das kennt man beispielsweise aus der Bilderkennung: Immer wieder wurde gezeigt, dass sich die Systeme verwirren lassen, wenn nur wenige Pixel eines Bildes verändert werden. Menschen würde das gar nicht auffallen.

Je robuster die künstliche Intelligenz ist, desto besser kann sie auf neue Daten reagieren. Bubeck und Sellke haben mathematisch gezeigt, dass die Erhöhung der Anzahl der Parameter in einem Modell die Robustheit und damit die Fähigkeit zur Verallgemeinerung verbessert. Das Gesetz beweist, dass eine Vergrößerung für die Verallgemeinerung notwendig ist, aber nicht, dass eine Vergrößerung ausreicht, sagt Bubeck. Nichtsdestotrotz wird es als Rechtfertigung für die Entwicklung größerer Modelle herangezogen.

Bei Minerva haben die Forschenden außerdem eine wichtige Neuerung gezeigt: das so genannte Chain-of-Thought Prompting (»chain of thought« bedeutet Gedankenkette). Der Benutzer stellt dabei seiner Frage einen Text voran, der einige Beispiele für Fragen und Lösungen enthält, einschließlich der Argumentation – eine typische Gedankenkette also –, die zu den Antworten geführt hat. Während der Inferenz nutzt das LLM diese Hinweise und liefert eine schrittweise Antwort, die ebenfalls wie eine Argumentation aussieht. Das erfordert keine Aktualisierung der Parameter des Modells und somit auch keine zusätzliche Rechenleistung, die für die Feinabstimmung erforderlich ist.

Begründete Bedenken

Die Fähigkeit, auf Gedankenketten zu reagieren, zeigt sich erst bei LLMs mit mehr als 100 Milliarden Parametern. Solche Entdeckungen haben dazu beigetragen, dass sich größere Modelle in Übereinstimmung mit empirischen Skalierungsgesetzen verbessern, sagt Blaise Agüera y Arcas von Google Research. Er ist überzeugt: »Die größeren Modelle werden immer besser und besser.«

»Ein Sprachmodell kann nicht spontan einen Sinn in etwas finden, was es noch nie gesehen hat«François Chollet, KI-Forscher bei Google

Aber es gibt auch andere, kritische Stimmen: François Chollet, ebenfalls KI-Forscher bei Google, ist überzeugt, dass LLMs nie auch nur annähernd die Fähigkeit haben werden, gut genug zu denken (oder Denken zu imitieren), um neue Probleme zuverlässig zu lösen – egal wie groß sie werden. Ein LLM scheint nur zu denken, indem es Schablonen verwendet, denen es schon einmal begegnet ist, sagt er – sei es in den Trainingsdaten oder in der Eingabeaufforderung des Nutzers. »Es kann nicht spontan einen Sinn in etwas finden, was es noch nie gesehen hat.« Sprachmodelle könnten lediglich so viele Trainingsdaten verarbeiten, dass die statistischen Muster der Sprache allein es ihnen ermöglichen, auf Fragen mit Antworten zu reagieren, die sehr nahe an dem sind, was sie bereits gesehen haben.

Agüera y Arcas argumentiert jedoch, dass LLMs einige überraschende Fähigkeiten erworben haben, für die sie nicht speziell trainiert wurden. Insbesondere verweist er auf Tests, die zeigen sollen, ob eine Person über die so genannte Theory of Mind verfügt – die Fähigkeit, sich in andere hineinzuversetzen. Nehmen wir dieses einfache Beispiel: Alice räumt ihre Brille in eine Schublade. Dann versteckt Bob, ohne dass Alice es weiß, die Brille unter einem Kissen. Wo wird Alice zuerst nach ihrer Brille suchen? Kinder können das erst ab einem gewissen Alter lösen. Vorher denken sie, dass Alice das Gleiche weiß wie sie als Beobachter, und antworten, dass sie unter dem Kissen sucht.

»Diese Modelle, die nichts anderes tun, als Sequenzen vorherzusagen, entwickeln eine außergewöhnliche Bandbreite an Fähigkeiten«Blaise Agüera y Arcas von Google Research

In seinen Experimenten mit einem anderen LLM von Google, dem Language Model for Dialogue Applications (LaMDA), stellte Agüera y Arcas fest, dass LaMDA in längeren Gesprächen dieser Art korrekt antwortete. Für ihn war dies ein Hinweis auf die Fähigkeit eines LLM, die Absichten anderer intern zu modellieren. »Diese Modelle, die nichts anderes tun, als Sequenzen vorherzusagen, entwickeln eine außergewöhnliche Bandbreite an Fähigkeiten, einschließlich der Theory of Mind«, sagt Agüera y Arcas. Aber er räumt ein, dass diese Modelle fehleranfällig seien. Auch er ist sich nicht sicher, ob Skalierung allein ausreicht.

Und selbst wenn die LLMs die richtigen Antworten geben, hätten sie kein Verständnis, sagt Chollet. »Wenn man versucht, ein wenig nachzufragen, wird sofort klar, dass das alles leer ist. ChatGPT hat keine Vorstellung von dem, worüber es spricht«, sagt er. »Man sieht sich ein Puppentheater an und glaubt, dass die Puppen lebendig sind.«

Bislang machen LLMs immer noch absurde Fehler, die Menschen nie machen würden, sagt auch Melanie Mitchell, die am Santa Fe Institute in New Mexico die konzeptionelle Abstraktion und Analogiebildung in KI-Systemen untersucht. Deshalb hätten viele Menschen Bedenken, ob es sicher ist, LLMs ohne klare Grenzen auf die Gesellschaft loszulassen.

Fähigkeiten von Sprachmodellen lassen sich nicht messen

Zudem sei es ein Problem in der Debatte darüber, ob LLMs jemals wirklich neue, ungesehene Probleme lösen können, dass die Forschung keine Möglichkeit hat, diese Fähigkeit umfassend zu testen, fügt Mitchell hinzu. »Unsere aktuellen Maßstäbe untersuchen die Dinge nicht systematisch. Wir wissen noch nicht wirklich, wie wir das machen sollen.« Chollet plädiert für einen von ihm entwickelten Test des abstrakten Denkens, den Abstract Reasoning Corpus.

Intelligent, aber verständnislos

Während die einen immer größere Sprachmodelle bauen, gibt es von anderer Seite massive Bedenken hinsichtlich dieses Trends. Eines davon ist, dass sich angesichts der riesigen Datensätze und der Rechenleistung, die mit dem Training großer LLMs verbunden sind, nur Unternehmen mit immensen Ressourcen deren Entwicklung leisten können. OpenAI hat die Kosten für ChatGPT nicht bestätigt, aber laut Schätzungen muss allein das Vortraining von GPT-3 (einem Vorgänger von ChatGPT) mehr als 4 Millionen US-Dollar gekostet haben. Der Betrieb von ChatGPT kostet OpenAI auf Grund der Anzahl der Anfragen, die der kostenlose Chatbot jetzt bearbeitet, wahrscheinlich jeden Monat Millionen von Dollar. »Wir befinden uns bereits tief in diesem System«, sagt Bubeck. »Es gibt nur wenige Unternehmen, die Modelle mit mehr als 100 Milliarden Parametern haben.«

Dank öffentlicher Förderung erweitert sich das Spielfeld teilweise: Im Juni 2022 trainierte ein internationales Team von etwa 1000 freiwilligen Forschenden mit finanzieller Unterstützung der französischen Regierung, eines US-KI-Unternehmens namens Hugging Face und anderer ein Modell namens BLOOM mit etwa 175 Milliarden Parametern, wofür 7 Millionen Dollar an Rechenzeit aufgewendet wurden. Und im November vergab das US-Energieministerium Rechenzeit an ein Projekt von Irina Rish und ihren Kollegen. Sie wollen ein Modell zur Untersuchung des Verhaltens von LLMs erstellen. »Wir hoffen, ein Chinchilla-ähnliches Modell mit 70 Milliarden Parametern zu trainieren  – nicht unbedingt das größte, aber dasjenige, dessen Leistung am effektivsten skaliert«, sagt Rish.

»Jedes große Technologieunternehmen wird nun versuchen, LLMs in seinen Produkten einzusetzen, unabhängig davon, ob das eine gute Idee ist oder nicht«François Chollet, KI-Forscher bei Google

Unabhängig davon, wer sie bauen darf, bereiten LLMs auch Bedenken hinsichtlich des Stromverbrauchs. Google hat beispielsweise berichtet, dass für die Schulung von PaLM über einen Zeitraum von etwa zwei Monaten rund 3,4 Gigawattstunden benötigt wurden. Das entspricht dem jährlichen Stromverbrauch von etwa 300 US-Haushalten. Google trainierte PaLM in seinem Rechenzentrum in Oklahoma, das nach eigenen Angaben zu 89 Prozent mit CO2-neutraler Energie betrieben wird, die größtenteils aus Windkraft und anderen erneuerbaren Quellen stammt. Eine Umfrage in der Industrie hat jedoch gezeigt, dass die meisten KI-Modelle mit Strom trainiert werden, der immer noch weitgehend aus fossilen Quellen stammt.

Chollet befürchtet, dass nun immer mehr Unternehmen größere Modelle trainieren und nutzen und dadurch noch mehr Strom verbrauchen: »Jedes große Technologieunternehmen wird nun versuchen, LLMs in seinen Produkten einzusetzen, unabhängig davon, ob das eine gute Idee ist oder nicht.«

Klüger und kleiner?

Für viele Wissenschaftler besteht daher die dringende Notwendigkeit, den Energieverbrauch von LLMs zu reduzieren – um neuronale Netze kleiner und effizienter und vielleicht auch intelligenter zu machen. Neben den Energiekosten für das Training von LLMs (die zwar beträchtlich sind, aber nur einmalig anfallen) kann der Energiebedarf für die Inferenz – bei der LLMs Anfragen beantworten – mit steigender Nutzerzahl in die Höhe schießen. Die großen Technologieunternehmen haben sich nicht zu den Nutzungskosten ihrer Modelle geäußert. Hugging Face aber hat zum Beispiel offengelegt, dass sein BLOOM-Modell, das 18 Tage lang auf der Google Cloud Platform eingesetzt wurde und in dieser Zeit 230 768 Abfragen beantwortete (viel weniger als ChatGPT, das im Februar 2023 100 Millionen aktive Nutzer pro Monat erreichte), durchschnittlich 1664 Watt verbrauchte.

Zum Vergleich: Unser eigenes Gehirn ist viel komplizierter und größer als jedes LLM, mit 86 Milliarden Neuronen und etwa 100 Billionen synaptischen Verbindungen. Und dennoch verbraucht es nur zwischen 20 und 50 Watt, sagt Friedemann Zenke vom Friedrich-Miescher-Institut für biomedizinische Forschung in Basel. Einige Forscher hoffen deshalb, dass die Nachahmung von Aspekten des Gehirns dazu beitragen wird, dass LLMs und andere neuronale Netze kleiner, intelligenter und effizienter werden.

Vom menschlichen Gehirn lernen

Eine Quelle für die Effizienz des Gehirns könnten seine so genannten rekurrenten oder rückgekoppelten Verbindungen sein. LLMs sind im Wesentlichen Feedforward-Netzwerke. Informationen fließen also nur in eine Richtung: vom Eingang über die Schichten des LLM zum Ausgang. Das Gehirn ist anders verdrahtet. Im menschlichen Sehsystem zum Beispiel verbinden Neurone die Regionen des Gehirns, die zuerst visuelle Informationen erhalten, mit weiter hinten liegenden Bereichen. Doch es gibt auch Rückkopplungsverbindungen, die eine Informationsübertragung zwischen Neuronen in umgekehrter Richtung ermöglichen. »Es gibt vielleicht zehnmal so viele Rückkopplungsverbindungen wie Vorwärtsverbindungen im Sehsystem«, sagt Melanie Mitchell. Ein LLM hingegen hat keine Rückkopplungsverbindungen.

Künstliche neuronale Netze, die sowohl Feedforward- als auch Feedback-Verbindungen enthalten, werden allgemein als rekurrente neuronale Netze (RNNs) bezeichnet. Solche Netze können im Gegensatz zu Feedforward-LLMs Muster in Daten erkennen, die sich im Lauf der Zeit verändern. Das ist »grundlegend dafür, wie alle natürlichen Intelligenzen die Welt erfahren und lernen«, sagt Kanaka Rajan, ein Computational Neuroscientist an der Icahn School of Medicine am Mount Sinai in New York City. Aber RNNs haben auch ihre Tücken, sagt Rajan. Zum Beispiel sind sie schwer und langsam zu trainieren, was es schwierig macht, sie auf die Größe der derzeitigen LLMs zu skalieren.

Ein weiterer Grund, warum Gehirne effizient sind, ist, dass biologische Neurone meist ruhen – sie haben nur gelegentliche Aktivitätsspitzen. Im Gegensatz dazu werden die künstlichen Neurone in den meisten neuronalen Netzen so modelliert, dass sie ständig aktiv sind. Forschende untersuchen nun künstliche Neurone, die spiken (und damit echte Neurone imitieren). Allerdings ist es schwierig, Algorithmen, die normale neuronale Netze trainieren, an Netze anzupassen, die spikende Neurone verwenden. Dennoch hat die Forschung mit kleinen Datensätzen (wie 10 000 Audioaufnahmen, die zum Trainieren eines Netzes zur Erkennung gesprochener Ziffern verwendet werden) gezeigt, dass RNNs mit spikenden Neuronen diejenigen mit Standardneuronen übertreffen und theoretisch um drei Größenordnungen effizienter sind. »Die Fortschritte sind schnell und beeindruckend«, sagt Sander Bohté, der am nationalen niederländischen Forschungsinstitut für Mathematik und Informatik in Amsterdam (CWI) in diesem Bereich arbeitet.

Solange solche Spiking-Netzwerke jedoch nur in Software simuliert werden, können sie keine wirklichen Effizienzgewinne bringen – schließlich verbraucht die Hardware, die sie simuliert, weiterhin Strom. Entsprechende Rechenelemente müssen in die Hardware eingebaut werden, auf neuromorphen Chips, um ihre Vorteile zu nutzen.

Energieeffiziente Sprachmodelle sind möglich

Derweil experimentieren Forschende mit verschiedenen Möglichkeiten, bestehende LLMs energieeffizienter und intelligenter zu machen. Bereits im Dezember 2021 stellte DeepMind ein System namens RETRO vor, das ein LLM mit einer externen Datenbank kombiniert. Das LLM nutzt relevante Texte, die während der Inferenz aus dieser Datenbank abgerufen werden. Die Forschenden konnten zeigen, dass ein LLM mit 7,5 Milliarden Parametern in Verbindung mit einer Datenbank mit 2 Billionen Token LLMs mit 25-mal mehr Parametern übertrifft. Dies sei ein »effizienterer Ansatz als eine reine Parameterskalierung, da wir versuchen, leistungsfähigere Sprachmodelle zu erstellen«, schreiben die Forschenden in ihrem Artikel.

Im selben Monat berichteten Wissenschaftler von Google Research über eine weitere Möglichkeit zur Steigerung der Energieeffizienz in großem Maßstab. Ihr Generalist Language Model oder GLaM hat 1,2 Billionen Parameter. Diese Parameter stellen jedoch nicht ein einziges riesiges neuronales Netz dar, sondern sind intern auf 64 kleinere neuronale Netze und andere Schichten verteilt. Das LLM ist so trainiert, dass es während der Inferenz nur zwei seiner Netze verwendet, um eine Aufgabe zu erfüllen; insgesamt nutzt das LLM nur etwa 8 Prozent seiner über eine Billion Parameter für die Inferenz pro Token.

Nach Angaben von Google benötigte GLaM die gleiche Menge an Rechenressourcen, wie für das Training von GPT-3 benötigt wurde, verbrauchte aber auf Grund von Verbesserungen der Trainingssoftware und -hardware nur etwa ein Drittel der Energie. Während der Inferenz nutzte GLaM die Hälfte der Rechenressourcen, die GPT-3 benötigte. Und es übertraf GPT-3, wenn es mit der gleichen Datenmenge trainiert wurde.

Allerdings zeichnet sich auch hier ein Trend ab: Auch diese energieeffizienteren LLMs müssen größer werden, um besser zu werden. Sie werden also ebenfalls mehr Daten, Rechenleistung und Energie verbrauchen für eine bessere Leistung. Er werde gemeinsam mit seinen Kollegen beobachten, wie sich diese Netze mit zunehmender Größe verändern, sagt Bubeck – und vor allem deren Verhalten: »Ich bin mir nicht sicher, ob sich das logische Denken dadurch vollständig entfalten wird«, sagt er vorsichtig. »Das kann niemand vorhersagen.«

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.