Direkt zum Inhalt

Replikationskrise: Schon die Wortwahl verrät etwas über die Qualität einer Studie

Vergleichende Sprachanalysen zeigen: Was Forscherinnen und Forscher selbst von ihrer Arbeit halten, lässt sich an ihrem Schreibstil ablesen.
Ein Auge guckt durch die aufgeschlagenen Seiten eines Buches
Eine Sprachanalyse wirft auch einen Blick hinter die Worte. (Symbolbild)

Wenn psychologische Studien ein zweites Mal durchgeführt werden, kommt nicht immer das gleiche Ergebnis heraus. Für Fachleute sind methodische Schwächen der Originalstudie ein möglicher Grund und ein Frühwarnzeichen dafür, dass sich ein Befund nicht bestätigt. Einer Forschungsgruppe aus den USA und Kanada ist es nun gelungen, solche Warnsignale auch im Schreibstil zu finden. »Wir vermuten, dass sich in der Wortwahl das intuitive Urteil der Autoren über die Richtigkeit ihrer Studie spiegelt«, schreiben die Wirtschaftswissenschaftlerin Michal Herzenstein von der University of Delaware und ihr Team in »Psychological Science«.

Die Gruppe zog knapp 300 Originalstudien aus der Psychologie und der Verhaltensökonomie heran, die andere Forschende repliziert, das heißt in gleicher Weise erneut durchgeführt und ausgewertet hatten – aber in weniger als der Hälfte der Fälle mit dem gleichen zentralen Ergebnis. Für die Sprachanalyse verwendete das Team eine Software, die als Goldstandard der linguistischen Textanalyse gilt, das »Linguistic Inquiry and Word Count«; außerdem berücksichtigten die Wissenschaftler Kennzeichen etwa für den Abstraktionsgrad und die Erzählstruktur. Um herauszufinden, ob sich damit der Replikationserfolg vorhersagen lässt, setzten sie Methoden des maschinellen Lernens ein: Sie trainierten ein statistisches Modell mit den Daten von 80 Prozent der Originalstudien und testeten es an den übrigen 20 Prozent. In 70 Prozent der Fälle gelang es ihnen so allein anhand der linguistischen Merkmale vorherzusagen, ob der zentrale Befund repliziert wurde oder nicht.

Als stärkstes positives Indiz erwies sich eine elaborierte und konkrete Sprache, das heißt eine Wortwahl, die auf Informationsreichtum und Detailgenauigkeit schließen lässt. Ein guter Hinweis auf Replizierbarkeit waren auch Mengenangaben und Präpositionen (»von«, »zu«, »in«, »auf«, »an«), Fragewörter sowie Wörter, die etwas vergleichen (»höher«) oder unterscheiden (»verschieden«, »nicht«, »aber«). In solchen linguistischen Markern zeige sich, wie sorgfältig die Originalautoren zu Werke gingen, so die Deutung der Gruppe.

Originalstudien, deren Ergebnis nicht bestätigt wurde, formulierten hingegen eher vage, abstrakt und zukunftsbezogen. Außerdem wurde häufiger in der Wir-Form geschrieben – womöglich ein Hinweis darauf, dass die Schwächen erkannt und die Verantwortung auf mehrere Schultern verteilt wurde. Weitere negative Anzeichen waren eine Erzählweise, die Spannung herstellt und am Ende auflöst, sowie positive und erfolgsbezogene Formulierungen wie »zeigen«, »stark« und »beste«. Die Gruppe deutet das als Versuch, die Ergebnisse vorteilhaft darzustellen und überzeugender zu wirken, als es die betreffende Studie eigentlich hergibt. Fazit: Mit ihrer Wortwahl verraten die Autorinnen und Autoren, wie überzeugt sie von ihrer eigenen Forschung sind – und ob sie bewusst oder unbewusst versuchen, überzeugend zu wirken.

Gute Zeichen, schlechte Zeichen

Starke linguistische Marker für erfolgreich replizierte Studien (mit Beispielen):
  1. Mengenwörter: jeder, mehr, alle, beide, durchschnittlich
  2. Fragewörter: welche, wann, wer, ob, wie
  3. Hilfsverben: war, ist, sind, sein
  4. Präpositionen: von, in, zu, für, mit, auf
  5. Gewissheit: alle, vollständig, total, genau
Starke linguistische Marker für Studien, deren Befunde nicht bestätigt wurden:
  1. Positive Begriffe: positiv, Wert, größer, stark, unterstützen, wichtig
  2. Pronomen in der ersten Person Plural: wir, uns, unser
  3. Pronomen in der dritten Person Plural: sie, ihnen, sich selbst
  4. Präsentation: sehen, offenbart, gezeigt, zeigt
  5. Zukunftsbezug: dann, wird, könnte, vorhergesagt, erwartet

Bei der Begutachtung von Studien für Fachzeitschriften könnten sich solche Marker als hilfreich erweisen, schreiben Herzenstein und ihr Team. Sie hätten deutlich mehr sprachliche Merkmale untersucht als andere vor ihnen und mögliche Störvariablen wie das Forschungsthema kontrolliert. Doch sie warnen, die Stichprobe von knapp 300 Studien sei noch zu klein und müsse selbst erst an einer größeren Stichprobe repliziert werden.

Hintergrund der Studie ist die so genannte Replikationskrise, die in den 2010er Jahren die Sozialwissenschaften erschütterte. In einer Umfrage gaben rund 70 Prozent der teilnehmenden Forschenden an, dass sie bereits einmal einen Befund anderer Forschungsgruppen nicht replizieren konnten, und rund 50 Prozent räumten ein, dass ihnen das auch schon mit eigenen Ergebnissen passiert war.

WEITERLESEN MIT SPEKTRUM - DIE WOCHE

Im Abo erhalten Sie exklusiven Zugang zu allen »spektrum.de« Artikeln sowie wöchentlich »Spektrum - Die Woche« als PDF- und App-Ausgabe. Genießen Sie uneingeschränkten Zugang und wählen Sie aus unseren Angeboten.

Zum Angebot

(Sie müssen Javascript erlauben, um nach der Anmeldung auf diesen Artikel zugreifen zu können)

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

  • Quellen
Psychological Science 10.1177/09567976241254037, 2024

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.