Künstliche Intelligenz aus China: Wie konnte DeepSeek ein solcher KI-Durchbruch gelingen?

Das neue KI-Produkt eines chinesischen Unternehmens könnte eine vollmundige Ankündigung von Donald Trump zur bloßen Fußnote degradieren. Gerade hatte der US-Präsident noch erklärt, die großen Tech-Unternehmen würden den Vorsprung des Landes im Bereich KI weiter ausbauen – indem sie beim Projekt »Stargate« insgesamt 500 Milliarden Dollar in riesige Datenzentren investieren. Schon wenige Tage danach lässt das chinesische Unternehmen DeepSeek die Aktien ebenjener Unternehmen in noch nie da gewesener Weise einbrechen. Innerhalb eines Tages verloren die Aktien von Tech-Unternehmen wie Nvidia oder TSMC mehr als 580 Milliarden US-Dollar an Wert. So viel wie noch nie innerhalb von 24 Stunden.
Grund dafür ist ein KI-Chatbot namens R1, den DeepSeek am 20. Januar 2025 veröffentlicht hat. Eine Woche später zählte die dazugehörige App zu den am häufigsten heruntergeladenen Anwendungen in den USA. R1 soll ähnlich gut funktionieren wie die Konkurrenzprodukte, zu denen ChatGPT von OpenAI oder Claude von Anthropic zählen. Die große Überraschung: Angeblich brauchte DeepSeek dafür bloß etwa ein Zehntel der Computerchips und einen Bruchteil der Zeit, die US-Firmen für das Training der KI-Modelle nutzen. Sollte das stimmen, ließe das die Rechner-Gigantomanie des Projekts »Stargate« als teuren Irrweg erscheinen. Auch weil das chinesische Unternehmen wegen der Sanktionen in der Chip-Technologie nicht einmal auf neueste Technik zurückgreifen kann.
»Das neue Modell von DeepSeek ist beeindruckend – in Bezug darauf, wie effektiv sie ein Open-Source-Modell entwickelt haben, das diese Berechnungen in Inferenzzeit durchführt und dabei superrecheneffizient ist. Wir sollten die Entwicklungen in China sehr, sehr ernst nehmen«, sagte Microsoft-CEO Satya Nadella auf dem Weltwirtschaftsforum in Davos. Aber wie konnte DeepSeek ein solcher Durchbruch gelingen?
Ein KI-Modell für nicht einmal sechs Millionen US-Dollar
Das chinesische Unternehmen ging im Mai 2023 aus der KI-Firma High-Flyer hervor, die der Informatiker Liang Wenfeng 2016 gegründet hatte. Und bereits nach eineinhalb Jahren, am 27. Dezember 2024, veröffentlichte DeepSeek ein Basismodell namens V3. Dabei handelt es sich um ein trainiertes KI-Modell, das noch nicht auf eine bestimmte Aufgabe spezialisiert ist – es dient als Ausgangspunkt, um beispielsweise einen Chatbot zu entwickeln (GPT etwa ist das Basismodell hinter ChatGPT). Anders als die meisten US-Unternehmen veröffentlichte DeepSeek auch den Quellcode seines KI-Modells, so dass er von jedem einsehbar und nutzbar ist. Und dann folgte wenige Tage später die Veröffentlichung von R1, dem Chatbot von DeepSeek.
Wie DeepSeek in einer Veröffentlichung erklärt, sei es den Entwicklern durch algorithmische Verbesserungen gelungen, ihr V3-Modell auf lediglich 2048 H800-Hopper-Grafikkarten von Nvidia zu trainieren. Zum Vergleich: OpenAI nutzte zum Training von GPT-4 etwa zehnmal so viele Grafikkarten. Zudem sind die leistungsfähigsten Chips in der KI-Branche aktuell die Blackwell-Chips, die rund viermal schneller als die H800-Grafikkarten sind. Außerdem gibt DeepSeek an, nur zirka 2,79 Millionen GPU-Stunden für das gesamte Training aufgewendet zu haben. In den USA kostet eine GPU-Stunde auf den Hopper-Grafikkarten ungefähr zwei US-Dollar, so dass sich die Kosten für die Entwicklung des Basismodells auf geschätzte 5,58 Millionen US-Dollar belaufen – was etwa einem Zehntel von dem entspricht, was die großen Player in dem Bereich ausgeben.
DeepSeek setzt bei seinem KI-Modell auf modulare Expertensysteme, ähnlich wie das französische Unternehmen Mistral. Das System besteht also nicht aus einem einzelnen zentralen neuronalen Netz, das mit Trainingsdaten gefüttert wird und so das Verarbeiten von Sprache lernt. Stattdessen setzt es sich aus mehreren kleineren neuronalen Netzen zusammen, die jeweils eine spezialisierte Aufgabe lernen. Ein Netz könnte zum Beispiel auf Übersetzungen spezialisiert sein, während ein anderes für die Grammatik zuständig ist. Diese Modularität bietet viele Vorteile, denn die kleineren neuronalen Netzwerke sind einfacher zu trainieren und zu betreiben als ein großes.

Solche modularen Expertensysteme sind allerdings nicht neu. Fachleute gehen davon aus, dass auch OpenAI diese Technik nutzt, selbst wenn das Unternehmen die Architektur hinter ihrem Chatbot geheim hält.
Der größte Nachteil solcher modularen Expertensysteme ist die effiziente Verteilung der Informationen innerhalb des Systems. Es ist eine zentrale Instanz nötig, welche die Daten an die unterschiedlichen Netze weiterreicht. Oft kommt es zu Verzögerungen bei der Kommunikation: Die Netze müssen aufeinander warten, wenn eines beispielsweise noch nicht fertig gerechnet hat. Diesen Problemen begegnete DeepSeek durch ein eigens entwickeltes Lastverteilungssystem, das die Fachleute im August 2024 vorstellten. Zudem spare das DeepSeek-Team wertvolle Rechenzeit ein, indem es die Genauigkeit der Berechnungen optimiere: An manchen Stellen würden die Zahlenwerte nur in geringer Auflösung gespeichert, während an anderen die Rechenoperationen genauer durchgeführt würden.
Eine Chance für Europa?
Das sind bloß zwei der technischen Feinheiten, die laut den Fachleuten von DeepSeek zu den erstaunlichen Ergebnissen geführt haben. Ob diese Neuerungen allerdings ausreichen, um mit rund einem Zehntel der Ressourcen auszukommen, können Fachleute bisher nicht genau abschätzen. »Wir sind sehr skeptisch, ob das V3-Modell wirklich von Grund auf mit einem so kleinen Cluster trainiert wurde. Es ist einfach schwer zu glauben, bis jemand anderes die Aufgabe wiederholt«, schreibt der Computerexperte Timothy Prickett Morgan auf »Thenextplattform«. »Glücklicherweise ist die Wissenschaft reproduzierbar: Es gibt Unternehmen mit Zehntausenden von GPUs, die prüfen können, ob das, was DeepSeek behauptet, wahr ist.«
Sollte sich das chinesische Ergebnis bewahrheiten, wäre das eine große Chance für Europa. Denn im Vergleich zu den USA gibt es in den europäischen Ländern bloß wenige große Rechenzentren, was bisher die KI-Entwicklung gehemmt hat. »Das ist sehr positiv für Europa und ein Hoffnungsschimmer für unsere KI-Industrie«, sagt Andreas Goeldi, Partner bei der Risikokapitalfirma B2venture, gegenüber »Sifted«. »Es zeigt, dass man kein riesiges GPU-Datenzentrum für viele Milliarden Dollar braucht, um ein hochmodernes Modell zu erstellen.«
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.