Direkt zum Inhalt

Mikrochips: Neue Chips treiben die KI-Revolution

Das Training von künstlicher Intelligenz erfordert leistungsstarke Rechner. CPUs kommen hier an Grenzen. Abhilfe schaffen Grafikprozessoren, neuartige Chips und eine Reihe an Tricks.
Leiterplatte mit Prozessor und weiteren elektronischen Bauelementen
Neue Zeitrechnung für Computerchips: Die CPU war über Jahrzehnte der dominierende Prozessortyp, doch der Aufstieg der künstlichen Intelligenz erfordert neue Chiparchitekturen.

Im März 2024 füllen 12 000 begeisterte Menschen ein Stadion im kalifornischen San Jose. »Ich hoffe, Sie wissen, dass dies kein Konzert ist«, scherzt Jensen Huang, Chef des Chipherstellers Nvidia im nahe gelegenen Santa Clara.

In der nächsten halben Stunde heizt Huang seinem Publikum ein – mit den neuesten Nachrichten über Grafikprozessoren, so genannte GPUs. In den letzten zehn Jahren haben Computerchips von Nvidia die künstliche Intelligenz (KI) entscheidend vorangebracht. In seiner Hand hält Huang den »Superchip« Hopper. Das Modell hat das Unternehmen 2022 auf den Markt gebracht. Er hebt den Chip in die Höhe und verkündet: »Hopper hat die Welt verändert.« Dann, nach einer dramatischen Pause, zeigt er ein weiteres glänzendes schwarzes Rechteck von der Größe eines Post-it-Zettels: »Das ist Blackwell.« Die Menge jubelt.

Beim MLPerf, einem Branchenwettbewerb für KI-Leistung, schlug Hopper die Konkurrenz im Jahr 2022 in jeder Kategorie – von der Bildklassifizierung bis zur Spracherkennung. Unmittelbar nach seiner Markteinführung avancierte Hopper zum bevorzugten Chip für Unternehmen, die ihre KI verbessern wollen. Jetzt verspricht Nvidia, dass Blackwell bei bestimmten Problemen um ein Vielfaches schneller sein wird als sein Vorgänger. »Ich denke, Blackwell wird uns auf die nächste Stufe bringen«, erwartet Dave Salvator, Director of Product Marketing bei Nvidia. Dabei verweist er nicht nur auf die höhere Rechenleistung, sondern auch auf die Art und Weise, wie die Chips untereinander kommunizieren.

Ungeachtet der Hoffnungen und Sorgen um die Auswirkungen von KI, wächst der Markt für KI-Chips weiter. Mehr als 80 Prozent davon liefert derzeit Nvidia. Allein im Jahr 2023 verkaufte das Unternehmen 550 000 Hopper-Chips und verlangte dafür Stückpreise von mindestens 30 000 US-Dollar. Eingesetzt werden sie vor allem in Rechenzentren, weniger in PCs. Der Marktwert des Unternehmens ist 2024 auf mehr als drei Billionen US-Dollar gestiegen. Damit gehört Nvidia laut Statista zu den drei weltweit wertvollsten Unternehmen – noch vor Giganten wie Amazon und Alphabet, der Muttergesellschaft von Google.

Der Blackwell-Chip ist Teil einer ganzen Reihe von neuer Hardware, die Unternehmen helfen soll, mit der KI-Revolution Schritt zu halten oder sie gar anzutreiben. Der Fortschritt im Bereich der künstlichen Intelligenz in den letzten zehn Jahren hängt weniger mit cleveren Programmiertricks zusammen, vielmehr vollzog er sich nach dem einfachen Prinzip: je größer, desto besser. Große Sprachmodelle wurden auf zunehmend größeren Datensätzen trainiert, was immer mehr Rechenleistung erfordert. Schätzungen zufolge benötigte die Entwicklung des Modells GPT-4 von OpenAI 100-mal mehr Rechenleistung als sein Vorgänger GPT-3.

Unternehmen wie Meta haben Datenzentren gebaut, die auf Nvidias Grafikprozessoren, die GPUs, angewiesen sind. Andere, wie Google und IBM sowie eine Vielzahl kleinerer Unternehmen, haben ihre eigenen KI-Chips entwickelt; Meta arbeitet ebenfalls an einem eigenen. Währenddessen experimentieren Fachleute mit verschiedenen Chipdesigns, auch jenseits der Grenzen der bekannten CPU- und GPU-Architekturen. Einige davon sind für den Einsatz auf kleineren Geräten optimiert. Denn KI-Anwendungen kommen nicht mehr nur in Cloud-Rechenzentren, sondern auch in mobilen Geräten zum Einsatz. In dem Zusammenhang »glaube ich nicht, dass GPUs noch ausreichen«, sagt die Chipentwicklerin Cristina Silvano von der Polytechnischen Universität Mailand.

All diese Chips haben etwas gemeinsam: Sie setzen auf Tricks wie das parallele Rechnen, besser zugängliche Speicher und eine Art numerischer Kurzschrift. Damit überwinden sie die Leistungsgrenzen der herkömmlichen Rechenverfahren.

Nvidia-Mikrochip Blackwell | Der Blackwell von Nvidia ist einer der neuesten und leistungsstärksten Chips für das Training von künstlicher Intelligenz.

Wie Chips sich wandeln

Ein Großteil der KI-Revolution des vergangenen Jahrzehnts geht mit der allmählichen Abkehr vom bisherigen Zugpferd der Computertechnik einher: der zentralen Verarbeitungseinheit (CPU), wie einem i7-Chip von Intel.

Eine CPU lässt sich als winzige Maschine verstehen, die Befehlen folgt. »Sie sieht sich eine Anweisung an und fragt: ›Was soll ich tun?‹«, erklärt der Chipentwickler Vaughn Betz von der University of Toronto. Auf der einfachsten Ebene führen CPUs Befehle aus, indem sie Transistoren umschalten – einfache elektrische Schalter, bei denen »1« für an und »0« für aus steht. Diese binären Operationen genügen für hochkomplexe Berechnungen.

Leistung und Effizienz einer CPU hängen hauptsächlich von der Größe ihrer Transistoren ab. Kleinere Transistoren schalten schneller und können dichter auf einem Chip platziert werden. Die modernsten Transistoren messen heute nur 45 mal 20 Nanometer und sind damit nicht viel größer als ihre atomaren Bausteine. Die fortschrittlichsten CPUs enthalten inzwischen mehr als 100 Millionen Transistoren auf einem Quadratmillimeter und können etwa eine Billion Gleitkommaoperationen pro Sekunde ausführen, so genannte Flops.

Seit den 1970er Jahren haben sich CPUs exponentiell verbessert. Die Transistoren schrumpften, während sich ihre Dichte auf einem Chip alle zwei Jahre verdoppelte. Dieser Trend ist auch als Mooresches Gesetz bekannt. Zugleich wurden die kleineren Transistoren immer schneller, im Einklang mit der Skalierungstheorie des US-amerikanischen Elektroingenieurs und Erfinders Robert Dennard. Der Fortschritt war so rasant, dass die Entwicklung anderer Chiptypen müßig wurde. »Bis man einen speziellen, neuen Schaltkreis entworfen hatte, war die CPU bereits doppelt so schnell«, sagt Jason Cong von der University of California in Los Angeles. Doch um das Jahr 2005 kam es zu einem Knick: Kleinere Transistoren wurden nicht mehr schneller. Zudem wächst seit einigen Jahren die Sorge, dass sich Transistoren bald nicht mehr weiter verkleinern lassen. Denn die Physik setzt ihnen Grenzen.

Die CPU-Bremse | Das Mooresche Gesetz, nach dem die Rechenleistung von CPUs von Jahr zu Jahr exponentiell steigt, verliert seit Beginn der 2000er Jahre seine Gültigkeit.

Mit dem langsameren Fortschritt in der CPU-Technik begannen Chipdesignerinnen und -designer, über Alternativen nachzudenken. Frühe Versionen von GPUs gab es bereits seit Ende der 1970er Jahre. Sie wurden entwickelt, um sich wiederholende Berechnungen für Videospiele durchzuführen, etwa um die Farbe der Pixel auf dem Bildschirm möglichst schnell darzustellen. Der Unterschied zwischen beiden Chips: Während CPUs Anweisungen sequenziell verarbeiten, tun GPUs dies parallel.

Im Allgemeinen verfügen CPUs über mehrere leistungsstarke »Kerne«, in denen die Berechnungen ablaufen. Jede dieser Verarbeitungseinheiten empfängt Befehle und wird von mehreren »Caches« unterstützt, die Daten kurzfristig speichern. Damit eignen sich CPUs ideal für komplexe Berechnungen. Grafikprozessoren hingegen haben hunderte oder tausende kleinerer Kerne. Diese werden von weniger Hilfssystemen wie Caches unterstützt. Dank der vielen kleineren Kerne können GPUs eine große Zahl an einfachen, sich wiederholenden Berechnungen deutlich schneller parallel ausführen als CPUs. Dafür brauchen GPUs allerdings speziell darauf abgestimmte Computerprogramme. Laut Salvator arbeiten bei Nvidia doppelt so viele Fachleute am Code wie an der Hardware.

Der Beginn einer Revolution

2012 erteilte Geoffrey Hinton einem seiner Studenten, Alex Krizhevsky, eine besondere Aufgabe. Hinton ist Informatiker an der Universität Toronto und einer der Pioniere für neuronale Netze, wofür er 2024 mit dem Nobelpreis für Physik ausgezeichnet wurde. Er forderte Krizhevsky dazu heraus, die ImageNet-Challenge zu gewinnen. Bei diesem jährlichen Wettbewerb sollen KI-Algorithmen Bilder klassifizieren. Damals erreichten Programme, die CPUs verwenden, bestenfalls eine Genauigkeit von 75 Prozent. Krizhevsky erkannte, dass neuronale Netze, die mit GPUs trainiert wurden, besser abschneiden könnten. Schließlich besteht maschinelles Lernen aus nicht viel mehr als sich wiederholenden Berechnungen.

GPU-Vorteil | CPUs verfügen über einige leistungsstarke Prozessorkerne. Grafikprozessoren hingegen rechnen mit Hunderten oder Tausenden von kleineren Prozessorkernen.

Krizhevsky und sein Team trainierten das neuronale Netz namens AlexNet mit zwei Grafikprozessoren. Das Programm verfügte über 60 Millionen Parameter, das heißt interne Variablen, die KI-Modelle zur Erstellung von Vorhersagen anpassen. Zu dieser Zeit war das ein Rekord. AlexNet überraschte die Fachwelt: Es setzte sich mit einer Genauigkeit von 85 Prozent gegen die Konkurrenz durch und konnte zuverlässig zwischen ähnlichen Bildern unterscheiden, wie Leoparden und Jaguaren. In den kommenden Wettbewerben nutzten alle ImageNet-Teilnehmer Grafikprozessoren.

Wie CPUs sind allerdings auch GPUs an die Beschränkungen von Transistoren gebunden. Doch ihre Fähigkeit zum parallelen Rechnen beschleunigt die Entwicklung von KI-Programmen. Um das große Sprachmodell GPT-3 mit 175 Milliarden Parametern zu trainieren, ließ OpenAI einen Monat lang 1024 GPUs auf Hochtouren laufen, was mehrere Millionen US-Dollar kostete. Insgesamt haben diese GPUs 1023 Flops ausgeführt. Das gleiche Training hätte auf vergleichbaren CPUs 100- oder gar 1000-mal länger gedauert. »Mit mehr Rechenleistung konnte man nicht nur ein größeres Netzwerk trainieren, es wurde auch immer besser«, erklärt Betz. Das im März 2023 veröffentlichte GPT-4-Modell enthält beispielsweise 1,8 Billionen Parameter – zehnmal so viel wie sein Vorgänger.

GPUs spielen mittlerweile eine zentrale Rolle bei der KI-Revolution – und doch stehen sie nicht allein im Rampenlicht. Denn mit der wachsenden Zahl an Anwendungen werden zudem andere, auf KI spezialisierte Chips weiterentwickelt.

Bühne frei für neue Recheneinheiten

Fehlt die Zeit, einen Chip mit Anweisungen zu versorgen, dann spielen feldprogrammierbare Gate-Arrays (kurz: FPGA) ihre Stärke aus. Chipdesigner können deren Schaltkreise so programmieren, dass sie an Stelle von äußeren Anweisungen interne Befehle ausführen. »Wo ein Chip wie eine CPU oder ein Grafikprozessor auf externe Anweisungen warten muss, handelt ein FPGA einfach«, sagt Betz.

»Eine CPU oder ein Grafikprozessor warten auf externe Anweisungen, ein FPGA handelt«Vaughn Betz, Chipentwickler

Cong vergleicht FPGAs mit einer Kiste voller Legosteine. Ein Entwickler kann ein solches Bauelement Schaltkreis für Schaltkreis in jedes erdenkliche Design einbauen – sei es für einen Waschmaschinensensor oder für ein KI-Programm, das ein selbstfahrendes Fahrzeug steuert. Im Vergleich zu KI-Chips mit nicht anpassbaren Schaltkreisen wie GPUs sind FPGAs allerdings langsamer und weniger effizient. Unternehmen wie Altera, eine Tochtergesellschaft von Intel in San Jose, vermarkten FPGAs für viele KI-Anwendungen, unter anderem für die medizinische Bildgebung. Auch für Nischenaufgaben wie die Datenverarbeitung bei Teilchenbeschleunigern halten sie Forschende für nützlich. Da sich FPGAs so einfach programmieren lassen, eignen sie sich auch für die Entwicklung von Prototypen, wie Silvano berichtet. Die Forscherin entwirft mit Hilfe von FPGAs oft KI-Chips, bevor sie sich deren mühsamer Herstellung widmet.

Silvano arbeitet auch an einer Klasse viel kleinerer KI-Chips. Ihr Ziel: deren Rechenleistung zu steigern und so mobile Endgeräte zu verbessern. »Es wäre zwar schön, einfach einen Grafikprozessor in ein Mobiltelefon einzubauen«, sagt die Expertin, »aber die Energiekosten und der Preis machen das unerschwinglich.« Stattdessen können kleinere KI-Chips die CPU-Einheit eines Telefons unterstützen. Dabei übernehmen sie aufwändige Aufgaben von KI-Anwendungen wie Bilderkennung, ohne dafür Daten in die Cloud zu schicken.

Die vielleicht herausforderndste Aufgabe für KI-Chips ist das Multiplizieren. 2010 sah sich Google mit einem Problem konfrontiert: Das Unternehmen wollte die Sprachdaten einer großen Anzahl von Nutzern transkribieren. Eine KI darauf zu trainieren, würde sehr viele Multiplikationen erfordern. »Hätten wir nur CPUs verwendet, hätten wir unsere Serverflotte verdoppeln müssen«, schätzt der Chipentwickler Norm Jouppi von Google. Stattdessen half Jouppi bei der Entwicklung einer neuen Art von Chip. Die so genannte Tensor Processing Unit (TPU) dient Google als Plattform für seine KI-Programme.

Die vielleicht herausforderndste Aufgabe für KI-Chips ist das Multiplizieren

TPUs sind speziell auf die Arithmetik der eingesetzten Software ausgelegt. Wenn sie eine Anweisung erhalten, können sie so statt einer einzigen Operation mehr als 100 000 ausführen. Die Fähigkeit zu derartigem Multitasking resultierte aus neuesten Entwicklungen im Bereich von Schaltkreisen und Software. Inzwischen verfügen auch viele auf KI-Anwendungen spezialisierte GPUs wie Blackwell über Ähnliches. Diese enorme Anzahl an Operationen vollzieht die TPU, ohne lange auf Anweisungen warten zu müssen. Google kann damit viele KI-Projekte beschleunigen, nicht nur die Spracherkennung und -transkription.

Um die Rechengeschwindigkeit weiterzusteigern, verwenden viele KI-Chips, wie TPUs und GPUs, eine Art digitale Kurzschrift. Typischerweise speichern CPUs Zahlen im 64-Bit-Format. 64 Einheiten lassen sich dabei jeweils auf den Wert 0 oder 1 einstellen; alle zusammen ergeben wiederum eine bestimmte Zahl. Datenformate mit weniger Bits rechnen potenziell weniger präzise, weshalb die gängigen Chips bei 64 bleiben.

Wenn es allerdings nicht so sehr auf hochgenaue Ergebnisse ankommt, »wird die Hardware einfacher, kleiner und verbraucht weniger Energie«, sagt Betz. Beispielsweise erfordert die Darstellung einer DNA-Sequenz nur ein 2-Bit-Format, da die genetische Information nur vier Möglichkeiten hat: die Basen A, T, G oder C, die sich als 00, 01, 10 oder 11 schreiben lassen. Ein FPGA, das von Cong für den Abgleich von Genomdaten im 2-Bit-Format entwickelt wurde, war 28-mal schneller als eine vergleichbare CPU mit 64-Bit-Format.

Um das maschinelle Lernen zu beschleunigen, haben Entwicklerinnen und Entwickler die Berechnungsgenauigkeit der Chips gesenkt. TPUs verwenden ein spezielles 16-Bit-Format. Bei der neuesten Generation von Chips wie Blackwell können Nutzer sogar das Format wählen: von 64-Bit bis 4-Bit – je nachdem, was sich am besten für die geplante Berechnung eignet.

Die Grenzen verschwimmen

KI-Chips sind so konzipiert, dass sie sich nicht allzu viel merken müssen. Das Hin- und Herschieben von Daten zwischen dem Mikroprozessor, in dem die Berechnungen ablaufen, und dem Speicherort kann extrem zeit- und energieaufwändig sein. Deswegen verfügen viele Grafikprozessoren über große Speicher, die direkt auf einem Chip verdrahtet sind – Blackwell von Nvidia hat beispielsweise etwa 200 Gigabyte. Sind KI-Chips in einem Server installiert, können sie sich den Speicher auch teilen. Das erleichtert die Vernetzung zwischen den einzelnen Chips und senkt den Stromverbrauch. Google hat so fast 9000 TPUs verbunden.

Schätzungen zufolge hat das Training von GPT-3 etwa 1300 Megawattstunden Strom verbraucht

Der Strombedarf ist als Problem nicht zu unterschätzen. Genaue Zahlen sind zwar schwer zu ermitteln, aber Schätzungen zufolge hat das Training von GPT-3 etwa 1300 Megawattstunden Energie verschlungen. Zum Vergleich: In Deutschland beträgt der durchschnittliche Pro-Kopf-Stromverbrauch etwa sechs Megawattstunden pro Jahr. Auch nach dem Training konsumieren KI-Anwendungen weiterhin Energie. Obwohl die Chips immer effizienter werden, steigen die KI-bedingten Energiekosten von Jahr zu Jahr, da die Modelle zunehmend wachsen.

Trotz des Aufstiegs von KI-Chips wie GPUs wird die Entwicklung neuer CPUs nicht aufgegeben. Allerdings verschwimmen die Grenzen zwischen den unterschiedlichen Chiptypen. Moderne CPUs sind heute besser bei parallelen Berechnungen als früher, während GPUs immer vielseitiger werden. »Jeder schaut sich bei den anderen etwas ab«, konstatiert Betz. Eine Version des Blackwell-Chips verbindet die GPU direkt mit einer CPU; und auch der leistungsstärkste Supercomputer der Welt, »Frontier« am Oak Ridge National Laboratory in Tennessee, nutzt eine Mischung aus CPUs und GPUs.

Angesichts der rasanten Veränderungen ist es schwierig, die Zukunft der Chips vorherzusagen. So könnten zukünftig optische Chips Einzug erhalten, die Licht statt Elektronen verarbeiten, und auch Quantenprozessoren könnten bald eine wichtige Rolle spielen. Unterdessen plädieren manche Fachleute dafür, die Öffentlichkeit in Sachen KI-Hardware stärker aufzuklären. Das würde das Feld entmystifizieren und den falschen Eindruck korrigieren, dass KI allmächtig ist. »Man kann den Menschen besser als bislang vermitteln, dass KI keine Zauberei ist«, sagt Silvano. Und Jouppi stellt fest, dass es sich im Grunde nur um Drähte und Elektronen handle. Es sei unwahrscheinlich, dass sie die Welt unterwerfen: »Man kann einfach den Stecker ziehen.«

WEITERLESEN MIT »SPEKTRUM +«

Im Abo erhalten Sie exklusiven Zugang zu allen Premiumartikeln von »spektrum.de« sowie »Spektrum - Die Woche« als PDF- und App-Ausgabe. Testen Sie 30 Tage uneingeschränkten Zugang zu »Spektrum+« gratis:

Jetzt testen

(Sie müssen Javascript erlauben, um nach der Anmeldung auf diesen Artikel zugreifen zu können)

  • Quellen

Desislavov, R.: Trends in AI inference energy consumption: Beyond the performance-vs-parameter laws of deep learning. Sustainable Computing: Informatics and Systems 38, 2023

Guo, L. et al.: Hardware acceleration of long read pairwise overlapping in genome sequencing: A race between FPGA and GPU. 2019 IEEE 27th Annual International Symposium on Field-Programmable Custom Computing Machines (FCCM), 2019

Krizhevsky, A. et al.: ImageNet classification with deep convolutional neural networks. Communications of the ACM 60, 2017

Nikkhah, V. et al.: Inverse-designed low-index-contrast structures on a silicon photonics platform for vector–matrix multiplication. Nature Photonics 18, 2024

Xu, Z. et al.: Large-scale photonic chiplet Taichi empowers 160-TOPS/W artificial general intelligence. Science 384, 2024

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.