Springers Einwürfe: Auch KI kann irren
Ob in Teilchenphysik oder Kernfusionsforschung, ob in Biologie oder Medizin, bei Klimaprognosen oder Modellen sozialen Verhaltens: Ohne künstliche Intelligenz geht anscheinend gar nichts mehr. Ein Artikel, der sich brüstet, das verwendete KI-System mit riesigen Datenmengen trainiert zu haben, kann darauf zählen, dass die präsentierten Resultate besondere Beachtung finden.
Doch je universeller KI und maschinelles Lernen (ML) den Erkenntnisprozess prägen, desto häufiger kommt es vor, dass die Aussagen der künstlich intelligenten und maschinell belehrten Modelle näherer Überprüfung nicht standhalten. Droht der KI-gestützten Forschung am Ende eine Reproduktionskrise?
Kritiker warnen davor, den lernfähigen Algorithmen das fachliche Schlussfolgern zu überlassen, als glichen sie autonom agierenden Forschern. Der US-amerikanische Physiker und Publizist Mark Buchanan erinnert daran, dass die Wissenschaft eine soziale Aktivität ist, deren Erfolg von der Interaktion und der gegenseitigen Kritik der Forschenden abhängt. Diesen Austausch an das maschinelle Lernen digitaler Apparate zu delegieren, sei ein riskantes Spiel.
Bei seiner Warnung beruft sich Buchanan auf eine Studie von Sayash Kapoor und Arvind Narayanan aus dem Sommer 2023. Die beiden Informatiker von der Princeton University haben zahlreiche Arbeiten überprüft, in denen lernfähige KI-Modelle mit dem Ziel eingesetzt wurden, wissenschaftliche Vorhersagen zu treffen. In fast 300 Fällen aus ganz unterschiedlichen Forschungsfeldern fanden Kapoor und Narayanan, dass die Methoden anfechtbar und die Resultate fragwürdig waren.
Der häufigste methodische Makel des maschinellen Lernens trägt den englischen Namen Data Leakage. Gemeint sind damit nicht Datenlecks wie beim unerlaubten Abfischen von geschützten Informationen; vielmehr geht es um das Vermischen der Trainingsdaten mit den erwünschten Resultaten der trainierten Modelle.
Ein simples Beispiel: Ein ML-System, das Tierarten erkennen soll, füttert man mit Aufnahmen aller möglichen Vierbeiner und prüft, wie gut es die richtige Zuordnung trifft. Nachdem es erfolgreich mit unterschiedlichen Lernbildern trainiert wurde, sollte das System fähig sein, auch völlig neue Testbilder richtig zu identifizieren, etwa ein noch nie gezeigtes Hundebild als Hund. Im Lauf des Lernvorgangs könnte man allerdings versucht sein, auch Daten beizumengen, die bereits das gewünschte Ergebnis vorwegnehmen – also beispielsweise Bilder darzubieten, die das ML-System eigentlich erst nach abgeschlossenem Training eigenständig identifizieren soll.
Diese Datenvermischung kommt beim maschinellen Lernen offenbar häufig vor. Das führt dazu, dass die Modelle besser zu sein scheinen, als sie tatsächlich sind. Sie gleichen insofern einem Prüfling, der eine Eins bekommt, weil er einen Spickzettel dabei hat.
An einer der untersuchten Arbeiten – es ging um die Prognose von Bürgerkriegen – haben die Informatiker aus Princeton demonstriert, dass die spektakulären Trefferquoten des ML-Modells in sich zusammenfielen, sobald der Data-Leakage-Effekt herausgerechnet wurde. Die Vorhersagen fielen dann nicht besser aus als jene, die sich mit herkömmlichen statistischen Verfahren erzielen ließen.
Eine Folgerung aus den aufgedeckten Missständen drängt sich auf: Den Artikeln, die sich auf ML-Resultate berufen, sollten konkrete Angaben zu den verwendeten Algorithmen, zu den Trainingsdaten und zur Lernmethodik beigefügt werden. Hinderlich ist freilich, dass die gängigsten KI-Modelle kommerziell angeboten werden und aus ihrem Innenleben ein patentgeschütztes Geheimnis machen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.