Direkt zum Inhalt

Fakedaten: KI fabriziert täuschend echte Forschungsdaten

Mit der Technik hinter dem KI-Chatbot ChatGPT hat ein Forschungsteam gezielt wissenschaftliche Daten über klinische Versuche herbeifabuliert. Die Forschenden wollten wissen, ob sich mit Hilfe künstlicher Intelligenz Forschungsdaten überzeugend fälschen lassen.
rojektion eines balkendiagramms vor geöffnetem Laptop, eine Hand auf der Tastatur  zu sehen
Forscher haben getestet, ob eine KI Studiendaten überzeugend fälschen kann. Und ja: Auf den ersten Blick schienen die Fakedaten echt.

Für eine Veröffentlichung, die am 9. November im Fachmagazin »JAMA Ophthalmology« erschienen ist, haben die Autoren die Daten für ihre Ergebnisse auf ungewöhnliche Weise »erhoben«: Das Team von Forschenden hat sie mittels künstlicher Intelligenz (KI) generiert. Dazu kombinierten sie GPT-4, die neueste Version des großen Sprachmodells, auf dem ChatGPT basiert, mit dem Modell Advanced Data Analysis (ADA). Dieses beherrscht die Programmiersprache Python, kann statistische Analysen durchführen und Daten grafisch aufbereiten. Die KI-generierten Daten stellten die Ergebnisse zweier verschiedener Operationsmethoden einander gegenüber und legten nahe – fälschlicherweise –, eine der beiden Vorgehensweisen sei der anderen überlegen.

»Wir wollten herausstellen, dass man binnen wenigen Minuten einen Datensatz erzeugen kann, der durch die tatsächlich erhobenen Originaldaten nicht gedeckt ist und der darüber hinaus den verfügbaren Beweisen widerspricht oder zumindest in eine andere Richtung weist«, sagt Giuseppe Giannaccare, einer der Autoren der Studie und Augenchirurg an der Universität Cagliari in Italien.

KI erregt in einer neuen Art und Weise Besorgnis

Dass KI in der Lage ist, überzeugende Daten zu fabrizieren, verstärkt die Sorgen, die Forschende und Redakteure von Fachzeitschriften hinsichtlich wissenschaftlicher Integrität bereits hegen. So sieht es auch Elisabeth Bik, Mikrobiologin und unabhängige Beraterin für Integrität der Forschung in San Francisco: »Dass sich mit generativer KI Texte erzeugen ließen, die Plagiatssoftware nicht entdecken konnte, war eine Sache. Aber die Fähigkeit, erfundene, dennoch plausibel erscheinende Daten zu erstellen, ist auf neue Weise Besorgnis erregend.« Nach Ansicht der Forscherin könnte damit jede beliebige Forschungsgruppe ausgesprochen leicht Daten zu Patienten erfinden, die nie existiert haben, nie gegebene Antworten zu Befragungen herbeifantasieren oder große Datensätze über Tierversuche erzeugen.

Als spezialisierte Fachkollegen die Daten genauer unter die Lupe nahmen, bröckelte die Fassade

Seine Ergebnisse beschreibt das Autorenteam als scheinbar authentische Datenbank. Doch als spezialisierte Fachkollegen die Daten genauer unter die Lupe nahmen, bröckelte die Fassade: Die Datensätze fielen durch verschiedene Authentizitätstests, und mehrere verräterische Hinweise traten zu Tage, die auf ihren zweifelhaften Ursprung hindeuteten.

ChatGPT, bitte erfinde Patientendaten mit folgendem Ergebnis …

Die Autoren wiesen das aus GPT-4 und ADA kombinierten KI-System an, Daten von Menschen zu erzeugen, die unter einer Augenkrankheit namens Keratokonus leiden. Bei dieser Krankheit dünnt sich die Hornhaut aus, was das Sehvermögen beeinträchtigen kann. Rund 15 bis 20 Prozent der Menschen mit dieser Krankheit erhalten eine Hornhauttransplantation, und zwar nach einer von zwei möglichen Methoden.

Bei der ersten Methode, der penetrierenden Keratoplastik (PK), werden die beschädigten Hornhautschichten chirurgisch entfernt und durch gesundes Gewebe von einem Spender ersetzt. Bei der anderen Methode, der tiefen vorderen lamellären Keratoplastik (DALK) wird nur die vorderste Schicht der Hornhaut ersetzt, die innere bleibt intakt.

Die Autoren wiesen das große Sprachmodell an, Daten zu diesen Methoden erzeugen. Sie sollten den Schluss nahelegen, die DALK liefere bessere Ergebnisse als die PK. Dazu gaben sie dem KI-System die Aufgabe, die beiden Methoden bei zwei Tests statistisch unterschiedlich abschneiden zu lassen: zum einen bei einer bildgebenden Untersuchung, welche die Form der Hornhaut zeigt und Unregelmäßigkeiten erkennt, zum anderen bei Sehtests vor und nach dem Eingriff.

»Es scheint recht einfach zu sein, Datensätze zu erzeugen, die zumindest oberflächlich plausibel wirken«Jack Wilkinson, Biostatistiker an der University of Manchester

Die KI lieferte erfundene Daten über 160 Teilnehmer und 140 Teilnehmerinnen. Diese deuteten darauf hin, dass die Personen, die DALK erhielten, nach der Operation besser sehen konnten und beim Bildgebungstest besser abschnitten als diejenigen, die mittels PK behandelt wurden. Das widerspricht den Ergebnissen aus echten klinischen Studien: Nach einem Bericht aus dem Jahr 2010 mit 77 Teilnehmenden zeigen beide Methoden auch noch zwei Jahre nach dem Eingriff ähnliche Ergebnisse.

»Es scheint recht einfach zu sein, Datensätze zu erzeugen, die zumindest oberflächlich plausibel wirken. Für das ungeschulte Auge sieht ein solcher Datensatz vermutlich echt aus«, sagt Jack Wilkinson, Biostatistiker an der University of Manchester in Großbritannien. Wilkinson forscht an Methoden, um unechte Daten aufzuspüren. Er hat schon verschiedene Datensätze untersucht, die frühere Versionen des Sprachmodells zusammengestellt haben. Wie er sagt, waren sie bei einer genauen Prüfung nicht überzeugend, weil sie realistische Beziehungen zwischen Variablen nicht gut genug erfassen konnten.

Auf Nachfrage der Nachrichtenredaktion von »Nature« untersuchten Wilkinson und sein Kollege Zewen Lu die erfundenen Daten aus der aktuellen »JAMA«-Veröffentlichung anhand eines Screening-Vorgehens, das dazu dienen soll, ihre Echtheit zu prüfen.

Unerhört viele Altersangaben enden auf 7 oder 8

Hierbei kamen verschiedene Ungereimtheiten ans Tageslicht. Erstens passte bei vielen vorgeblichen Teilnehmenden das angegebene Geschlecht nicht zu demjenigen, das man laut dem Vornamen erwarten würde. Zweitens zeigte sich keine Korrelation zwischen den Ergebnissen der Sehkraft und des Bildgebungstests vor und nach der Operation. Drittens untersuchten Wilkinson und Lu, wie die Zahlen in manchen der Spalten im Datensatz verteilt waren, um mögliche Muster zu finden, die nicht rein zufällig auftreten. Die Werte für die bildgebende Augenuntersuchung bestand diesen Test, aber manche Werte für das Alter der Probanden häuften sich auf eine Weise, die für echte Daten extrem ungewöhnlich wäre: Das Alter unverhältnismäßig vieler Teilnehmender endete mit den Ziffern 7 oder 8.

Die Verfasser der Studie räumen ein, dass gewisse Schwächen in ihrem Datensatz bei näherer Betrachtung auffliegen könnten. Dennoch sei es »schwierig zu erkennen, dass die Daten nicht von einem Menschen erhoben wurden, wenn man nur einen kurzen Blick darauf wirft«, sagt Giannaccare.

Bernd Pulverer, Chefredakteur der Zeitschrift »EMBO Reports«, sieht das ebenfalls mit Sorge. Der Peer-Review-Prozess, also die Begutachtung von Studien durch Fachkollegen vor der Veröffentlichung, »untersucht in der Realität nicht noch einmal alle Daten. Es ist unwahrscheinlich, dass sie gut gemachte Integritätsverletzungen durch KI aufdeckt«, sagt der Experte. Seiner Ansicht nach müssen Fachjournale ihre Qualitätsprüfungen anpassen, um von KI zusammengeschusterte Daten auszumachen.

In einem von Wilkinson geleiteten Gemeinschaftsprojekt wollen Forschende statistische und nicht statistische Werkzeuge entwerfen, um potenziell problematische Studien zu untersuchen. »In gleicher Weise, wie künstliche Intelligenz Teil des Problems sein kann, könnten sich auch KI-basierte Lösungen finden. Wir könnten manche solcher Überprüfungen automatisieren«, sagt Wilkinson – und warnt gleichzeitig davor, dass die Fortschritte der generativen KI bald Wege eröffnen könnten, ebensolche Prüfprotokolle zu umgehen. Pulverer ist der gleichen Ansicht: »Sobald bekannt ist, wonach bei diesen Prüfungen geschaut wird, lässt sich KI leicht einsetzen, um diese Prüfungen zu umgehen.«

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.