Direkt zum Inhalt

Künstliche Intelligenz: Wissenschaftler »beeindruckt« von neuem KI-Modell

Die KI-Firma OpenAI hat ihrem neuesten Modell die Fähigkeit zum Überlegen gegeben. Damit schlägt es sogar Doktoranden in den schwierigsten Physiktests.
Künstliche Intelligenz (Symbolbild)
Ein neues KI-Modell könnte den Stillstand beim Einsatz von KI in der Forschung überwinden.

Ein neues Sprachmodell der KI-Firma OpenAI scheint sich als deutlich nützlicher für die Forschung zu erweisen als vorhergehende Modelle. Das berichten unter anderem Wissenschaftler, die das neue große Sprachmodell namens OpenAI o1 getestet haben. In dieselbe Richtung deuten standardisierte Tests, mit denen die Leistungsfähigkeit von KI-Modellen verglichen wird: Das o1-Modell könnte einen wesentlichen Fortschritt gegenüber Vorgängermodellen darstellen.

»In meinem Fachgebiet der Quantenphysik liefert es erheblich detailliertere und kohärentere Antworten als das Vorgängermodell GPT-4o«, sagt Mario Krenn, Leiter des Artificial Scientist Lab am Max-Planck-Institut für die Physik des Lichts in Erlangen. Krenn gehörte als Wissenschaftler zum »Red Team«, mit dem die KI-Firma aus San Francisco die Vorabversion von o1 auf mögliche Gefahren und Sicherheitsrisiken testen ließ. Zu den Aufgaben dieses Teams gehört in der Regel auch zu probieren, ob sich die bereits eingebauten Schutzmechanismen überlisten lassen und wenn ja, mit welchem Ergebnis.

Seit der Veröffentlichung von ChatGPT im Jahr 2022 sind die zugrunde liegenden Sprachmodelle immer größer geworden und auch leistungsfähiger, wie standardisierte Tests – die Benchmarks – belegen. Bei OpenAI heißt es nun, man habe durch die o1-Serie einen signifikanten Sprung nach vorne gemacht, der über den schleichenden Verbesserungsprozess der vergangenen Monate noch einmal hinausgehe.

Möglich macht dies ein spezielles Vorgehen, dass es dem Modell erlaubt, vor der Ausgabe über seine Antwort »nachzudenken«, indem es sie bewertet und im Zweifel anpasst. Diesen Prozess kann das Modell mehrfach durchlaufen und dabei seine Ausgabe korrigieren. Das macht die KI zwar langsamer, erhöht jedoch ihre Fähigkeiten – insbesondere in Bereichen, in denen es klare richtige und falsche Antworten gibt.

Laut OpenAI kann o1 dank dieser Verbesserung »komplexe Aufgaben bewältigen und komplizierte Probleme in Wissenschaft, Programmierung und Mathematik meistern«. Aktuell sind nur die Vorabversion »o1-preview« und die kleinere »o1-mini« verfügbar. Letztere ist eine reduzierte, kostengünstigere Version, die insbesondere für Programmieraufgaben geeignet sein soll. Nutzen können die beiden Modelle ausschließlich OpenAIs zahlende Kunden und ausgewählte Entwickler. Genaue Informationen zu den Parametern oder der Rechenleistung der o1-Modelle wurden jedoch noch nicht veröffentlicht.

Besser als Doktoranden

Die Veröffentlichung des neuen Modells kommt zu einem Zeitpunkt, als sich in der Wissenschaft bereits eine gewisse Ernüchterung breitzumachen begonnen habe. So erklärt es Andrew White, Chemiker bei FutureHouse, einer gemeinnützigen Organisation in San Francisco, die sich mit dem Einsatz von KI in der Molekularbiologie beschäftigt. In den eineinhalb Jahren seit der Veröffentlichung von GPT-4 seien viele in der Szene enttäuscht gewesen, dass die Chatbots beim Einsatz in der Forschung kaum noch Fortschritte gemacht hätten. Doch die o1-Serie habe das Blatt gewendet, sagt White.

Das zeigt beispielsweise ihr Abschneiden beim »Graduate-Level Google-Proof Q&A Benchmark« (GPQA), einem Test, der Wissensfragen auf Doktorandenniveau stellt, deren Antworten nicht bereits im Netz verfügbar sind. Bemerkenswert ist, dass o1 als erstes großes Sprachmodell menschliche Doktoranden bei den schwierigsten Fragen des so genannten Diamond Sets übertroffen hat. Diese erzielen im Schnitt knapp 70 Prozent, während o1 insgesamt auf 78 Prozent kam – in Physik sogar auf beeindruckende 93 Prozent.

»Das ist deutlich höher als die bisher besten Chatbot-Leistungen«, sagt David Rein, Mitentwickler des GPQA-Testverfahrens. Rein arbeitet inzwischen für die gemeinnützige Organisation Model Evaluation and Threat Research in Berkeley, Kalifornien, die sich mit der Bewertung von KI-Risiken befasst. »Plausibel« sei es, sagt Rein, dass den Entwicklern von Open AI ein grundlegender Fortschritt beim logischen Schlussfolgern gelungen ist.

Einen weiteren Beleg dafür liefert das Abschneiden von o1 bei einer Qualifikationsprüfung für die Internationale Mathematik-Olympiade. Während GPT-4o nur 13 Prozent der Aufgaben lösen konnte, erzielte o1 beachtliche 83 Prozent.

Das Geheimnis: Chain-of-Thought

Hinter den Verbesserungen steht in erster Linie der Einsatz einer Technik, die als »Chain-of-Thought«-Logik bezeichnet wird: Das Modell führt eine Art von Selbstgespräch, wenn es die Ausgabe erzeugt. Dabei formuliert es eine Abfolge von Gedankenschritten, die wiederum den Input liefern, mit dem es sich selbst korrigiert. Das Konzept von »Chain-of-Thought« lässt sich auch bei herkömmlichen Modellen nutzen, indem der Nutzer den Chatbot beispielsweise dazu auffordert, »Schritt für Schritt« zu denken. Im Falle von o1 ist dieses Vorgehen jedoch immer aktiv und in einer mutmaßlich verbesserten Variante fest eingebaut.

Die genauen Inhalte einer Gedankenkette möchte OpenAI nicht offenlegen – zum Teil, weil sie Fehler oder unangemessene Angaben enthalten könnte, zum Teil, um Unternehmensgeheimnisse zu schützen. Stattdessen liefert o1 dem Nutzer eine rekonstruierte Zusammenfassung seines Denkprozesses zusammen mit der Antwort. Ob die vollständige Gedankenkette, so sie denn offengelegt würde, überhaupt vom Nutzer verstanden werden könnte und menschlichem Denken entspräche, sei nicht bekannt, meint White.

Diese neuen Fähigkeiten bringen allerdings wohl auch Nachteile mit sich. Nutzer haben sich bereits an OpenAI gewandt, weil o1 ihrer Meinung nach häufiger »halluziniere« – also Informationen als Teil der Antwort erfinde – als seine Vorgängermodelle. Interne Tests des Unternehmens zeigen jedoch, dass o1 etwas weniger häufig solche falschen Informationen produziert. Zudem scheint es so, dass bislang erfolgreiche Prompt-Strategien im Fall von o1 nicht mehr gut funktionieren. Bei diesen Strategien handelt es sich um eine Reihe von Tipps und Tricks, wie sich möglichst gute Arbeitsanweisungen an das Modell formulieren lassen.

Die Wissenschaftler des »Red Teams« fanden viele nützliche Einsatzmöglichkeiten, etwa bei der Entwicklung von Protokollen für wissenschaftliche Experimente. Allerdings weist OpenAI darauf hin, dass die Tester auch »fehlende Sicherheitsinformationen zu potenziell gefährlichen Schritten« festgestellt hätten. Dazu gehören unzureichende Warnungen vor explosiven Gefahren oder ungeeignete Vorschläge zur chemischen Eindämmung. Diese Mängel deuten darauf hin, dass das Modell für Aufgaben, bei denen eine Gesundheitsgefahr besteht, nicht geeignet ist.

»Es ist immer noch nicht perfekt oder zuverlässig genug, um es ungeprüft zu verwenden«, sagt White. Seiner Meinung nach könnte o1 darum für Experten besser geeignet sein als für Anfänger, die nicht ohne Weiteres merken würden, wenn das Modell »Quatsch« produziere, erklärt er.

Wissenschaftliche Unterstützung

Krenn ist überzeugt, dass o1 die wissenschaftliche Forschung beschleunigen wird, indem es bei der Durchsicht von Fachliteratur hilft, Forschungslücken identifiziert und interessante Forschungsrichtungen vorschlägt. Er hat o1 erfolgreich in ein von ihm mitentwickeltes Tool integriert – SciMuse –, das genau dies leistet. »Es liefert viel interessantere Ideen als GPT-4 oder GPT-4o«, sagt er.

Kyle Kabasares, Datenwissenschaftler am Bay Area Environmental Research Institute in Moffett Field, Kalifornien, hat auf YouTube live dokumentiert, wie er von o1 zentrale Elemente der Software für sein Promotionsprojekt schreiben ließ. Dabei ging es um die Berechnung der Masse Schwarzer Löcher. Was ihn rund ein Dreivierteljahr kostete, erledigte o1 in nicht einmal einer Stunde. »Ich war einfach nur beeindruckt«, sagt Kabasares.

Auch in der Medizin könnte sich o1 bewähren. Am Boston Children's Hospital in Massachusetts werden aktuell mehrere KI-Systeme verglichen. Ziel ist es, Zusammenhänge zwischen Patientenmerkmalen und Genen für seltene Krankheiten zu erkennen. Die Genetikerin Catherine Brownstein gehört zu dem Team, das die Tests durchführt. Das o1-Modell hält sie nicht nur für genauer als seine Wettbewerber, es liefere auch »Optionen, die ich einem Chatbot nicht zugetraut hätte«.

WEITERLESEN MIT »SPEKTRUM +«

Im Abo erhalten Sie exklusiven Zugang zu allen Premiumartikeln von »spektrum.de« sowie »Spektrum - Die Woche« als PDF- und App-Ausgabe. Testen Sie 30 Tage uneingeschränkten Zugang zu »Spektrum+« gratis:

Jetzt testen

(Sie müssen Javascript erlauben, um nach der Anmeldung auf diesen Artikel zugreifen zu können)

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.