Forscher klassifizieren häufig Social Bots auf Twitter falsch

Soziale Medien: Wie Menschen zu Bots werden

Social Bots gefährden mit Desinformationskampagnen die Demokratie, heißt es immer wieder. Doch das wissenschaftliche Fundament dieser These ist wackelig: Fast alle empirischen Arbeiten basieren auf einem fehleranfälligen Analysetool.

von Alexander Graf

Smartphones — © unsplash / camilo jimenez (Ausschnitt)

Sara Green ist ein Roboter. Oder genauer, ein Social Bot. Gesteuert von einer Software verfasst sie Einträge auf Twitter. Ihr Thema: die Coronakrise. Ihr Ziel: Chaos und Unruhe in der Bevölkerung durch gezielte Desinformation und Manipulation. So jedenfalls schreibt es Ryan Ko, Professor für Computerwissenschaft und Leiter des Lehrstuhls für Cyber Security an der Universität Queensland, in einem Artikel für das Wissenschaftsportal »The Conversation«.

Kos Analyse schafft es bis in das britische Boulevardblatt »The Sun«, immerhin eine der auflagenstärksten Zeitungen des Vereinigten Königreichs. Eine Armee von Coronavirus-Bots würde Fake News und Horrorgeschichten über die Pandemie verbreiten, heißt es da. Und wieder muss @Sara89629382 als Beispiel für die unheimlichen Roboter-Accounts herhalten – inklusive Screenshot ihres Profils.

Das Problem ist bloß: Sara Green ist in Wahrheit ein Mensch. Wer sie bei Twitter anschreibt, bekommt rasch eine Antwort. Ein Videotelefonat ist ebenso schnell vereinbart, nur wenig später sieht man eine lächelnde junge Frau im Kapuzenpulli, im Hintergrund toben Kinder. Erschreckend fände sie es, dass ihr ein Wissenschaftler einfach so öffentlich das Menschsein absprechen könne, sagt die Krankenpflegeschülerin und dreifache Mutter aus Brisbane. Vor der ganzen Sache hätte sie noch nie etwas von Social Bots gehört.

Laut der Definition des Büros für Technikfolgen-Abschätzung beim Deutschen Bundestag stecken hinter dem Begriff Bot »Computerprogramme, die eine menschliche Identität vortäuschen und zu manipulativen Zwecken eingesetzt werden, indem sie wie Menschen im Internet kommunizieren«. Echte Menschen könnten ihr digitales Gegenüber demnach nicht als Maschine erkennen.

Die Erzählung vom bösen Internet

Das klingt beängstigend. Zumal die Schlagzeilen der vergangenen Jahre nahelegen, dass es sich hierbei um ein massenhaftes Phänomen handeln muss. Ein Viertel aller Tweets zum Klimawandel hätten Bots verfasst, hieß es etwa im Februar im britischen »Guardian«. Auch die Tweets zum Migrationspakt seien zu rund 30 Prozent von Automaten verfasst worden, schrieb die »Welt«. »Das Thema eignet sich sehr gut dafür, um die westliche Wertegemeinschaft in Frage zu stellen«, zitiert der Artikel Tabea Wilke, die Geschäftsführerin des Berliner Cyber Intelligence Start-up Botswatch.

Ähnlich wie Fake News oder Filterblasen sind Social Bots also ein weiteres Kapitel jener großen gesellschaftspolitischen Erzählung, nach denen im Internet derzeit die bedrohlichsten Gefahren für die Demokratie lauern. Sie werden zitiert, wenn es um Polarisierung, den Vertrauensverlust in traditionelle Medien oder den Erfolg von Populisten geht. Doch neben der weitgehend nicht hinterfragten Präsenz in öffentlichen Debatten eint die Schlagwörter nach Einschätzung einiger Wissenschaftler noch ein weiteres Merkmal: Die empirischen Befunde zeichnen ein ganz anderes Bild als die öffentliche Wahrnehmung.

Denn Sara Green ist kein Einzelfall. Immer wieder werden menschliche Accounts fälschlicherweise als Social Bots identifiziert. Das liegt zum einen daran, dass selbst Forscher renommierter Universitäten willkürlich anmutende Kriterien zur manuellen Klassifizierung verwenden. Ryan Ko nennt in seinem Artikel unter anderem folgende Indizien: kaum Follower, nur wenige Tweets oder eine achtstellige Zahl im Nutzernamen. Allerdings hängt Twitter eine solche Ziffernfolge bei der Erstellung eines neuen Profils automatisch an den Vornamen des Nutzers an.

Auf die Frage, warum er also Sara Green vor der Veröffentlichung seines Artikels nicht einfach im Sinn von »good science« kontaktiert habe, reagierte Professor Ryan Ko übrigens bot-ähnlicher als sein vermeintlicher Netzfund. Bisher hat er darauf nicht geantwortet.

Der Oxford-Professor Philipp Howard wiederum hat eine hohe Aktivität als hinreichendes Kriterium ausgemacht. Wer mehr als 50 Tweets am Tag sendet, ist nach seiner Definition ein Social Bot. Es gibt Wissenschaftler, die es »bedrückend« nennen, dass ein solches Kriterium tatsächlich in zahlreichen Peer-Review-Studien verwendet wurde, um Aussagen über Wählerbeeinflussung zu treffen.

Doch das Problem ist noch viel größer. Denn die meisten Studien zum Thema wählen nicht die manuelle Analyse wie Ko, sondern verlassen sich auf ein einziges Klassifizierungstool: Botometer. Das ist für Forscher außerordentlich bequem. Es genügt, das Programm mit einen Datensatz aus tausenden Twitter-Accounts zu füttern, danach spuckt die Software für jeden davon einen Wahrscheinlichkeits-Score zwischen 0 (Mensch) und 1 (Bot) aus.

Wer viel twittert, ist schon fast ein Bot

Die Methode ist innerhalb der Forschung schon länger umstritten. Erstens, weil Klassifikationsverfahren, die wie Botometer auf maschinellem Lernen basieren, immer nur so gut sind, wie die Daten, mit denen sie trainiert werden. Zweitens, weil es sich viele Forscher bei Gebrauch offenbar gerne etwas leicht machen. Denn obwohl beispielweise die Entwickler auf ihrer Website selbst davor warnen, einen fixen Grenzwert zu verwenden, machen die meisten Studien genau das. So kann es vorkommen, dass manchen Autoren schon ein Ergebnis von über 0,43 ausreicht, um einen Account in ihrer Veröffentlichung als Social Bot zu klassifizieren. Andere Forscher nehmen dagegen 0,76.

Der großen medialen Resonanz auf entsprechende Studien hat das bislang keinen Abbruch getan. Nun zeigt allerdings ein aktuelles Paper anhand mehrerer Testreihen deutlich, dass die generelle Zuverlässigkeit des Instruments sozialwissenschaftlichen Standards schlicht nicht genügt.

Um zu diesem Ergebnis zu gelangen, haben Adrian Rauchfleisch von der Nationaluniversität Taiwan und Jonas Kaiser von der Harvard University Botometer wiederholt mit fünf verschiedenen Datensätzen gespeist. Zwei der Datensätze bestanden ausschließlich aus verifizierten menschlichen Twitter-Accounts: Abgeordneten des Deutschen Bundestags sowie jenen des US-Kongresses.

Zwei weitere Listen beinhalteten wiederum nur Bots – allerdings solche, die ihre Künstlichkeit zum Großteil gar nicht verschleierten. Es handelte sich dabei meist um witzige oder nützliche Fingerübungen kreativer Programmierer, wie sie etwa auf der Seite Botwiki gesammelt werden. Als fünften Datensatz nutzten Rauchfleisch und Kaiser eine gemischte Liste, die von den Machern des Botometer selbst erstellt worden war. Die richtige Diagnose hätte dem Programm also eigentlich ziemlich leicht hätte fallen sollen.

Die untauglichen Werkzeuge der Bot-Forschung

Über drei Monate hinweg ließen die beiden Forscher ihre Daten täglich von Botometer auslesen. Dabei zeigte sich, wie ungenau die gelieferten Ergebnisse waren. Für eine Analyse erstellten die Autoren beispielweise aus den Daten der deutschen Abgeordneten und jenen der Bots ein so genanntes Resample von insgesamt 100 000 Accounts, bei dem sie den von einigen Forschern angenommenen Anteil von Bots in der realen Twitter-Community berücksichtigten – etwa 15 Prozent. In dem neuen Datensatz befanden sich somit 85 000 verifizierte menschliche Accounts und 15 000 bestätigte Bots.

Bei der anschließenden Berechnung waren dann allerdings 70 Prozent der gefundenen Roboter in Wahrheit menschliche Accounts. Gleichzeitig entgingen dem Programm aber über 80 Prozent der tatsächlichen Bots im Sample – obwohl die Autoren für die Identifizierung den gleichen Schwellenwert nutzten wie eine zuvor publizierte deutsche Bot-Studie. Zudem schwankten die Ergebnisse je nach Messdatum: An einem Tag wurden einzelne Nutzer als Menschen identifiziert, an einem anderen als Bots.

»Botometer war und ist weiterhin ein sehr gutes Beispiel dafür, wie Modelle, die auf maschinellem Lernen basieren, trainiert werden könnten und wie mögliche Ergebnisse aussehen können«, schreiben die Forscher. Allerdings: »Nur weil ein Modell mit dem Testdatensatz gut funktioniert, heißt das nicht, dass dies bei anderen Daten genauso der Fall ist.« Sozialwissenschaft aber müsse verlässlich, überprüfbar und reproduzierbar sein – in vielen der mit Botometer verfassten Studien seien diese Kriterien jedoch vernachlässigt worden, so die deutliche Einschätzung der beiden Autoren.

Es gibt keine tweetende allmächtige KI

Veröffentlicht wurde die Studie als Vorabveröffentlichung – also ohne Peer-Review-Verfahren. Dahinter steht allerdings eine bewusste Entscheidung der Autoren: »Peer Reviews dauern oft über ein Jahr«, sagt Rauchfleisch. »Wir glauben aber, dass diese Ergebnisse sofort zur Verfügung stehen sollten.« Dafür veröffentlichten sie die verwendeten Codes und das gesamte Datenmaterial, um eine unabhängige Prüfung zu ermöglichen.

Aber was folgt nun aus solchen Resultaten? Ist die Bot-Forschung nur dem blinden Glauben an ein allzu verlockendes Tool verfallen oder ist gar ihr ganzer Forschungsgegenstand eine reine Chimäre? Florian Gallwitz würde sofort für die zweite Option votieren. Der Professor für Informatik an der Technischen Hochschule Nürnberg ist einer der schärfsten Kritiker der Bot-Forschung, die für ihn wahlweise eine »Verschwörungstheorie« oder bloß »Schwachsinn« ist. Viele Experten lehnen Gallwitz’ schroffen Ton zwar klar ab – seine inhaltliche Kritik an den bisherigen Methoden des Forschungsfelds findet unter ihnen viel Zustimmung.

»Es fehlt einfach eine klare wissenschaftliche Definition von Social Bots«
Adrian Rauchfleisch

Doch Gallwitz geht noch weiter. Er sagt: Keiner der Bot-Forscher sei in der Lage, auf Anfrage einen konkreten Account zu nennen. Tatsächlich werden die Datensätze der Botometer-Studien meist weder manuell verifiziert noch veröffentlicht. Würde ein Studienautor doch mal einen vermeintlichen Account vorbringen, handele es sich dabei meist um Menschen, offensichtliche Service-Bots oder Spam-Bots, so Gallwitz. Für ihn ist klar: Solange ihm keiner der Kollegen einen »richtigen« Social Bot zeigen kann, existiert das Phänomen schlicht nicht.

An diesem Punkt wird die Debatte erst richtig kompliziert: Denn dass es automatisierte Accounts gibt, die beispielsweise selbstständig bestimmte Tweets teilen oder liken, bestreitet Gallwitz selbstverständlich nicht. Und auch nicht, dass Manipulation in sozialen Medien grundsätzlich möglich sei. Was ihn stört, ist das Bild der mächtigen künstlichen Intelligenz, die angeblich hinter Social Bots stecken soll – und sie zu jenen beängstigenden Manipulatoren machen würde, die von menschlichen Nutzern nicht mehr unterscheidbar sind. Der Stand der Technik werde dabei maßlos überschätzt, sagt Gallwitz.

»Es fehlt einfach eine klare wissenschaftliche Definition von Social Bots«, sagt Adrian Rauchfleisch. Tatsächlich gehen aber viele Akteure ziemlich lax mit den einzelnen Begriffen um. Die Macher der amerikanischen Plattform Bot Sentinel sprechen etwa in öffentlichen Interviews gerne von automatisierten Social Bots, die ihr Algorithmus erkennen könne. Auf der Website ist dann wiederum nur von Trollbots die Rede, dort definiert als menschliche Nutzer mit toxischem Verhalten. »Ich wäre deshalb extrem vorsichtig, im öffentlichen Diskurs mit solchen Etiketten zu hantieren«, warnt Rauchfleisch.

»Wenn ein Begriff sich erst einmal etabliert hat, dauert es eben etwas, bis sich gerechtfertigte Kritik durchsetzt«
Andreas Jungherr

Vielleicht ist es aber letztlich nicht die wichtigste Frage, ob man nun explizit Social Bots, andere Formen voll- oder teilautomatisierter Accounts oder schlicht Fake-Profile zu suchen glaubt. Sondern, ob gesteuerte Desinformationskampagnen in sozialen Netzwerken überhaupt reale Effekte haben – und wenn, welche. Denn trotz wiederkehrender Schlagzeilen darüber gibt es immer noch erhebliche Erkenntnisdefizite und Zweifel.

Aber woran liegt es dann, dass dieses Narrativ immer wieder durch den öffentlichen Diskurs gereicht wird und sich hartnäckig behauptet? »Wir haben es hier auch mit einem strukturellen Phänomen zu tun«, sagt Andreas Jungherr. Er beschäftigt sich an der Universität Konstanz mit den Auswirkungen von digitalen Medien auf Politik und Gesellschaft sowie der Datenanalyse in den Sozialwissenschaften.

Laut Jungherr sei durch einen ständigen Kreislauf aus nicht begutachteten Veröffentlichungen renommierter Universitäten und medialer Berichterstattung früh eine Erwartungshaltung entstanden, die später bisweilen eine wohlwollende Prüfung durch Peer-Reviews begünstigt hätte. Zudem sei Botometer ein perfektes Beispiel für die Probleme, die sich durch den Einzug computerwissenschaftlicher Instrumente in die Sozialwissenschaft ergeben können. Soll heißen: Anwendern, Gutachtern und Herausgebern fehlt oft das wirkliche Verständnis für die benutzten Analysetools, ihre Grenzen und die Qualitätssicherung der Ergebnisse. Hinzu kämen nicht zuletzt strukturelle Anreize durch das auf öffentlichkeitswirksame Veröffentlichungen getrimmte Wissenschaftssystem.

»Wenn ich Menschen einfach wegen bestimmter Inhalte oder Verhaltensweisen zu Robotern degradiere, muss ich mich ja nicht mehr mit ihnen auseinandersetzen«
Luca Hammer

Jungherr ist allerdings zuversichtlich, dass die Forschung aus den gemachten Fehlern lerne. »Der wissenschaftliche Prozess ist oft etwas zäh«, sagt er. »Wenn ein Begriff sich erst einmal etabliert hat, dauert es eben etwas, bis sich gerechtfertigte Kritik durchsetzt.« Über den akademischen Diskurs mache er sich deshalb keine Sorgen: »Die Frage ist eher, ob auch die öffentliche Debatte wieder von diesen Schlagwörtern loskommt.«

Klar ist nämlich auch, dass Konzepte wie Social Bots verlockend simple Lösungen für komplexe Probleme anbieten. Der Datenanalyst und Twitter-Experte Luca Hammer spricht von einem diskursiven Herrschaftsinstrument: »Wenn ich Menschen einfach wegen bestimmter Inhalte oder Verhaltensweisen zu Robotern degradiere, muss ich mich ja nicht mehr mit ihnen auseinandersetzen.« Dabei müsse man sich schlicht eingestehen, dass es tatsächlich eine Menge Leute gebe, die extreme oder menschenverachtende Positionen vertreten, ohne deshalb gleich Teil einer gesteuerten Propagandakampagne zu sein. »Das ist für eine demokratische Gesellschaft natürlich unangenehmer, als wenn man einfach sagt, dass zwei Personen 100 000 Bots erstellt und dann auf uns losgelassen haben«, sagt Hammer.

Soziale Medien: Wie Menschen zu Bots werden

Die Erzählung vom bösen Internet

Wer viel twittert, ist schon fast ein Bot

Die untauglichen Werkzeuge der Bot-Forschung

Es gibt keine tweetende allmächtige KI

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Neuronale Netze: Kreativität aus der Maschine

Social Media: Lüge schlägt Wahrheit

Digitale Manipulation: Wie Social Bots den Brexit verursachten

Themenkanäle

Der digitale Mensch

Roboter

Soziale Medien

SponsoredPartnerinhalte