Plagiate: Algorithmen jagen Betrüger in der Wissenschaft
Betrug und fehlerhaftes Arbeiten in der Wissenschaft scheinen auf dem Vormarsch. Bereits 2011 berichtete das Journal "Nature", die Fälle zurückgezogener Artikel hätten sich im vergangenen Jahrzehnt verzehnfacht, während im selben Zeitraum die Zahl wissenschaftlicher Veröffentlichungen lediglich um 44 Prozent gestiegen war. Zwar hilft auch Software dabei, Forscher gefälschter Daten, Bilder oder kopierter Texte zu überführen. Aber so gut wie alle Missstände in Artikeln werden weiter durch aufmerksame Gutachter und Redakteure entdeckt. Gute alte Detektivarbeit bildet selbst in Zeiten, in denen Automatisierung und Algorithmen scheinbar unser Leben bestimmen und das Plagiieren und Manipulieren von Daten immer einfacher wird, den Ausgang für tiefere, digitale Ermittlungen. Doch Forscher arbeiten daran, den nächsten Schritt bei der Enthüllung wissenschaftlicher Betrugsfälle zu tun – und setzen auf ausgefeilte Methoden aus "Big Data" und maschinellem Lernen.
Paul Ginsparg und Daniel T. Citron von der Cornell University im US-Bundesstaat New York beschreiben in einem bei den "Proceedings of the National Academy of Sciences" und auf "arXiv.org" veröffentlichten Artikel, wie sie das komplette Pre-Print-Archiv "arXiv.org" auf Plagiate untersucht haben. Ginsparg gründete "arXiv.org" Mitte 1991, in den Urzeiten des Internets. Es sollte Forschern, vor allem aus der Hochenergie- und Teilchenphysik, eine Plattform zum Austausch wissenschaftlicher Ergebnisse bieten, noch bevor diese in Fachjournals publiziert werden. Bis Mitte 2012 hatten sich knapp 760 000 Veröffentlichungen angesammelt. Diese durchforsteten Ginsparg und Citron mit Hilfe eines Algorithmus nach auffälligen Mustern kopierter Textstellen.
Dazu verglichen sie paarweise jedes Dokument mit allen anderen im Archiv. Um die Datenmengen gering zu halten, erstellten sie von jedem Artikel einen "digitalen Fingerabdruck". Sie unterteilten den Text dazu in so genannte 7-Gramme, Gruppen von sieben aufeinander folgenden Wörtern. Dann bereinigten sie diese von häufig auftretenden 7-Grammen. Zudem setzten sie eine Methode aus dem maschinellen Lernen ein, um die Zahl der Wortgruppen weiter zu reduzieren: Würde man alle 7-Gramme eines Textes aufzählen, käme man bei einem Text mit n Wörtern auf eine Anzahl von n-7+1 7-Grammen, denn das erste 7-Gramm beginnt mit dem ersten Wort des Textes, das zweite mit dem zweiten und so fort bis zum Schluss. Das letzte 7-Gramm beginnt dementsprechend beim siebtletzten Wort. Bis auf die letzten sechs Worte besitzt also jedes der n Worte des Textes ein eigenes 7-Gramm.
Sechs Milliarden Wörter
Dabei liegt eine extreme Redundanz vor. Die meisten 7-Gramme sind bis auf je zwei Wörter mit ihrem Vorgänger und Nachfolger identisch. Ginsparg und Citron konnten die sechs Milliarden Wörter der 760 000 Dokumente, die als unkomprimierter Text eine Dateigröße von 33 Gigabit besaßen, auf 1,6 Milliarden Hashes zusammenführen. Hashes sind Zahlenwerte, die stellvertretend für die 7-Gramme verwendet werden und sich leichter vergleichen lassen. Diese passten in den Arbeitsspeicher eines handelsüblichen Computers mit zwölf Gigabit RAM, wo sich dann mehrere hundert Dokumente pro Sekunde auf Textdopplungen untersuchen ließen. Review-Artikel, Doktorarbeiten, Konferenz- und Buchbeiträge ließen die Forscher außer Acht, sofern sie erkenntlich waren, da sich hier häufig Dopplungen zeigen, die nicht der Art von Missbrauch entsprechen, der die beiden auf der Spur waren.
Die aktuellen Plagiaterkennungssysteme funktionieren am besten mit kleineren Texten wie Hausarbeiten
Grundsätzlich unterschieden sie drei Stufen von Plagiaten: kopierter Text in einem Dokument, das mindestens einen Autor mit der Quelle gemeinsam hatte (AU), Textübernahme der Zitierung der Quelle (CI) und jene Fälle, in denen weder einer der Autoren übereinstimmte noch die Quelle genannt wurde (UN). Sie entdeckten bei lediglich 0,6 Prozent der Artikel, dass mindestens 50 Prozent der 7-Gramme darin in wenigstens einem anderen Artikel auftauchten. Das erste Fazit lautet also: Das unangemessene Kopieren von Textstellen ist kein Massenphänomen.
Nun wollten Ginsparg und Citron mehr über den kleinen, aber illegitimen Anteil an Aufsätzen mit Textdopplungen erfahren. Tritt das Problem bei einer breiten Schicht von Autoren auf, oder sind Wiederholungstäter für die Kopien verantwortlich? Wie einflussreich sind die zusammenkopierten Veröffentlichungen überhaupt? Gibt es eine geografische Häufung für den Ursprung der Plagiate?
Geografische Schwerpunkte
Es zeigte sich, dass von den 127 270 Autoren nur bei 14 020 (AU), 1600 (CI) respektive 210 (UN) in mehr als 24 Prozent ihrer Artikel eine der drei Plagiatsformen vorkam. In einer Untermenge von 116 490 Artikeln aus Astro- und Hochenergiephysik schauten sich die Forscher an, wie sich die Plagiatsquote eines Einzelartikels auf seine Zitierungen auswirkte. Sie fanden eine negative Korrelation: Je größer der Anteil an kopiertem Text in einem Artikel, desto seltener wurde er von anderen zitiert. Selbstzitate hatten die Forscher ausgespart.
Um festzustellen, ob es geografische Schwerpunkte für Plagiate in "arXiv.org" gibt, nutzten die Forscher die Domänen der E-Mail-Adressen, über die die Beiträge eingesandt wurden und die einem Land eindeutig zuordenbar sind. Es zeigte sich, dass eine kleine Gruppe von Ländern eine auffällig hohe Zahl an Plagiaten aufweist. Dort besitzen mehr als fünf Prozent der Veröffentlichungen eine Kopierrate von mehr als 50 Prozent. Diese Länder sind (in alphabetischer Reihenfolge der englischen Namen): Armenien, Bulgarien, Weißrussland, Kolumbien, Ägypten, Georgien, Griechenland, Iran und Rumänien. Aus den USA und Großbritannien erreichen dagegen weniger als ein Prozent diesen Satz. Die Autoren hatten nur Länder aufgenommen, aus denen Veröffentlichungen von wenigsten 100 unterschiedlichen Autoren bei "arXiv.org" eingereicht worden waren.
Entwicklungsländer, in denen Englisch nicht die Amtssprache ist, seien nach diesen Ergebnissen überproportional häufig mit plagiierten Artikeln vertreten. Das könnten teilweise auch verschiedene akademische Gepflogenheiten, Infrastruktur und Betreuung oder falsche Anreize im akademischen System erklären. Das Internet als global erreichbarer Schatz von Forschungsmaterialien und -leitlinien könne helfen, diese der Ausbildung geschuldeten kulturellen Diskrepanzen zu verringern, so die Autoren.
"ArXiv.org" setzt seit Juni 2011 den Algorithmus von Ginsparg und Citron standardmäßig auf alle eingesandten Manuskripte an. Er ist so elegant und sparsam, dass er sich auf einem gewöhnlichen Rechner in vernünftiger Zeit durch die etwa 100 000 jährlich eingesandten Artikel arbeiten kann. Etwa 250 davon versieht er monatlich mit einem automatischen Hinweis auf einen Plagiatsverdacht. Doch ein solch ausgereiftes automatisches Screening nach Betrugsversuchen ist im Moment nicht der flächendeckende Standard bei Fachjournalen. "Nature" verweist auf die kommerziell erhältliche Software CrossCheck, die eingereichte Arbeiten mit 50 Millionen Veröffentlichungen in einer Datenbank abgleichen soll. Das "New England Journal of Medicine" verwendet ein Screening-Verfahren, um Kopien bereits veröffentlichter Artikel zu enttarnen – gibt aber nicht genauer an welches. Und "Science" antwortet auf die Anfrage lediglich mit einem Link auf seine Richtlinien zur Offenlegung von Messdaten und Quellcode aus Veröffentlichungen.
Die Effizienz der Crowd
Kommerziell erhältliche Software zur Erkennung von Plagiaten ist jedoch nicht auf dem technischen Stand von Ginspargs und Citrons Algorithmus. Debora Weber-Wulff, Professorin für Internationale Medieninformatik an der Hochschule für Technik und Wirtschaft in Berlin, testet seit 2004 solche Programme. Sie trug für Guttenplag und Vroniplag dazu bei, die Doktorarbeiten von Karl-Theodor zu Guttenberg, Silvana Koch-Mehrin oder Annette Schavan des Plagiats zu überführen. Die Ergebnisse der Softwaretests sind ernüchternd. Der letzte von 2013 ergab, dass die aktuellen Plagiaterkennungssysteme am besten mit kleineren Texten wie Hausarbeiten funktionieren. Für komplexe Texte mit vielen Zitaten und Fußnoten sind sie ungeeignet. Am verheerendsten sei die weiterhin vorhandene Rate von falsch positiven und falsch negativen Ergebnissen. Eine hinreichend große Crowd sei viel exakter.
Die aktuellen Plagiaterkennungssysteme funktionieren am besten mit kleineren Texten wie Hausarbeiten
"ArXiv.org" hat es im Vergleich zu gewöhnlichen Fachjournalen mit einer viel größeren Menge eingesandter Manuskripte zu tun. "Nature" erhielt im Jahr 2013 knapp 11 000 Einsendungen, von denen es 856 in den Druck schafften. "Arxiv.org" hat Ende letzten Jahres die Grenze von einer Million hinterlegter Artikel durchbrochen. Unter der Last von momentan 100 000 jährlich eingesandten Manuskripten waren die Betreiber gezwungen, eine automatisiere Lösung zur Überprüfung zu finden. Die anderen Journale werden nachziehen müssen.
"Manch ein Redakteur glaubt noch, der Peer-Review-Prozess sei nicht dazu ausgelegt, Betrug aufzudecken", sagt Ivan Oransky von Retraction Watch. Die Plattform konzentriert sich auf die Sammlung und Enthüllung zurückgezogener wissenschaftlicher Artikel. Seit der Gründung 2010 hat das Portal etwa 5000 erfasst. Doch für die Enthüllung solcher Arbeiten sind die Journale selbst zuständig. "Wenn die Redakteure weiter dickköpfig bleiben, werden sie irgendwann irrelevant sein. Wir befinden uns in der Hochphase des akademischen Betrugs, aber wir können versuchen, das zu ändern."
In Zukunft könnte ein neuer Service bei der Verhinderung und Aufklärung wissenschaftlichen Fehlverhaltens helfen. Retraction Watch bekam im Dezember eine Zusage über 400 000 Dollar von der MacArthur Foundation. Das Geld soll dazu dienen, eine umfassende Datenbank aufzubauen. Jeder Artikel darin wird überall im Netz als zurückgezogen erkennbar sein. "Es ist dann nahezu unmöglich, eine bestimmte Veröffentlichung zu suchen, ohne dabei festzustellen, dass sie zurückgezogen wurde", sagt Ivan Oransky.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.