Blinde Flecken in der Forschung: Schluss mit dem Selbstbetrug
In den vergangenen zehn Jahren wurden viele Anstrengungen unternommen, um robuste, glaubwürdige Forschung zu fördern. Einige konzentrieren sich darauf, die Anreize zu verändern, zum Beispiel mit Förder- und Publikationskriterien, die eine offene Wissenschaft höher bewerten als etwaige sensationelle Durchbrüche. Aber das Augenmerk sollte sich auch auf die Forschenden selbst richten. Denn kognitive Verzerrungen können dazu führen, dass sie Ergebnisse sehen, die nicht vorhanden sind. Falsche Schlussfolgerungen führen zu schlampiger Wissenschaft – auch wenn keine böse Absicht dahintersteckt.
Wir müssen uns dieser Fallstricke stärker bewusst werden. So wie es dem Laborpersonal nicht erlaubt ist, ohne Sicherheitstraining mit gefährlichen Substanzen zu hantieren, sollte es Forschenden nicht erlaubt sein, p-Werte oder ähnliche statistische Maße zu verwenden, bevor sie nicht nachgewiesen haben, dass sie deren Bedeutung verstehen.
Wir alle neigen dazu, Beweise zu übersehen, die unseren Überzeugungen widersprechen. Wenn wir mit neuen Daten konfrontiert werden, kann unsere vorgefasste Meinung dazu führen, dass wir etwas sehen, was gar nicht da ist. Dabei handelt es sich um eine Form von Bestätigungsfehler (englisch: confirmation bias): Wir suchen und behalten bevorzugt Informationen, die zu dem passen, was wir bereits glauben. Dieser Filter hat durchaus eine Funktion. Wir müssen in der Lage sein, wichtige Informationen auszusortieren und schnell zu handeln, wenn Gefahr in Verzug ist. Aber der Filter kann zu wissenschaftlichen Fehlschlüssen führen.
Ein Beispiel dafür ist die Bestimmung der elektrischen Elementarladung 1913 durch den Physiker Robert Millikan. Obwohl er behauptete, dass seine Arbeit alle Datenpunkte aus seinem berühmten Öltropfenversuch enthielt, enthüllten seine Notizbücher weitere, unerwähnte Datenpunkte, die zwar den Endwert nur geringfügig verändert, aber eine größere statische Fehlervarianz beschert hätten. Es folgte eine Debatte darüber, ob Millikan beabsichtigt hatte, seine Leser in die Irre zu führen. Aber es ist nicht ungewöhnlich, dass ehrliche Menschen unbequeme Fakten unterdrücken.
Menschen tun sich schwer, die mit kleinen Stichproben verbundene Unsicherheit zu begreifen
Eine andere Art von kognitivem Handikap führt zu Fehlschlüssen auf dem Gebiet der Wahrscheinlichkeit und Statistik. Wie seit Langem bekannt tun sich Menschen schwer damit, zu begreifen, dass mit kleinen Stichproben eine größere Unsicherheit verbunden ist. Nehmen wir als aktuelles Beispiel einmal an, dass 5 Prozent der Bevölkerung mit einem Virus infiziert sind. Nun testen 100 Krankenhäuser jeweils 25 Personen, 100 Krankenhäuser je 50 Personen sowie weitere 100 Krankenhäuser je 100 Personen. Wie viel Prozent der Krankenhäuser werden keine Fälle finden und fälschlich den Schluss ziehen, dass das Virus verschwunden ist? Die Antwort lautet: 28 Prozent der Krankenhäuser, die 25 Menschen testen, 8 Prozent der Krankenhäuser, die 50 Menschen testen, und 1 Prozent der Krankenhäuser, die 100 Menschen testen. Der durchschnittliche Anteil der entdeckten Fälle ist unabhängig von der Stichprobengröße bei allen Krankenhäusern gleich. Aber die durchschnittliche Abweichung der entdeckten Fälle ist bei einer kleinen Stichprobe viel größer.
Diese nichtlineare Skalierung ist auf Anhieb schwer zu begreifen. Man unterschätzt, wie stark die Messwerte in kleinen Stichproben »rauschen«, also zufallsbedingt schwanken. Und so kommt es zu Studien, denen es an der nötigen statistischen Aussagekraft (»power«) fehlt, um die vermuteten Effekte sichtbar zu machen.
Einige Forschende erkennen auch nicht, dass die Signifikanz eines Ergebnisses, ausgedrückt im p-Wert, entscheidend vom Kontext abhängt. Je mehr Variablen man untersucht, desto wahrscheinlicher findet man einen fälschlich »signifikanten« Wert. Wenn man zum Beispiel 14 Stoffwechselprodukte darauf testet, ob sie mit einer Störung zusammenhängen, dann liegt die Wahrscheinlichkeit, zufällig mindestens einen p-Wert unter 0,05 zu finden – das übliche Kriterium für statistische Signifikanz – nicht bei 1 zu 20, sondern eher bei 1 zu 2.
Die herkömmliche Ausbildung in Statistik ist unzureichend oder sogar kontraproduktiv, weil sie dem Anwender unangebrachtes Vertrauen einflößen kann
Wie lässt sich ein Verständnis dafür vermitteln? Eines ist klar: Die herkömmliche Ausbildung in Statistik ist unzureichend oder sogar kontraproduktiv, weil sie dem Anwender unangebrachtes Vertrauen einflößen kann. Ich experimentiere mit einem alternativen Ansatz: Die Studierenden sollen simulierte Daten statistisch analysieren. Damit will ich zwei wesentliche Erkenntnisse vermitteln.
Erstens: Wenn man den Studierenden Zufallsdaten vorlegt, erkennen sie schnell, wie einfach es ist, Ergebnisse zu finden, die fälschlich statistisch signifikant erscheinen. Sie sollen lernen, dass man den p-Wert zur Frage »Ist A mit B korreliert?« ganz anders interpretieren muss als den zu der Frage »Sind A, B, C, D und E miteinander korreliert?« Zu untersuchen, ob ein bestimmtes Stoffwechselprodukt mit einer Krankheit zusammenhängt, ist nicht dasselbe, wie eine ganze Reihe von ihnen daraufhin zu prüfen. Letzteres erfordert wesentlich strengere Tests.
Simulierte Daten zu zwei Populationen mit unterschiedlichen Mittelwerten sind ebenfalls aufschlussreich. Die Studierenden lernen schnell, dass ein Experiment mit kleiner Stichprobengröße womöglich nicht in der Lage ist, einen moderaten Unterschied zu Tage zu fördern. Selbst Wissenschaftler sind fassungslos, wenn sie begreifen, was die Simulationen zeigen.
Um dem Bestätigungsfehler nicht zu erliegen, müssen wir neue Gewohnheiten entwickeln. Beobachtungen, die unseren Erwartungen zuwiderlaufen, bedürfen besonderer Aufmerksamkeit. Charles Darwin sagte 1876, er habe sich angewöhnt, »immer dann, wenn mir eine neue Tatsache, Beobachtung oder Idee über den Weg lief, die meinen Erkenntnissen widersprach, sofort einen Vermerk zu verfassen. Denn ich hatte aus Erfahrung gelernt, dass solche Tatsachen und Gedanken viel eher dem Gedächtnis entfallen«.
Ich selbst habe das auch erlebt. Bei Übersichten über die Forschungsliteratur habe ich mit Schrecken festgestellt, dass ich jene Arbeiten völlig vergessen hatte, die nicht zu meinem Bauchgefühl passten, obwohl sie keine besonderen Mängel aufwiesen. Inzwischen bemühe ich mich, sie zu erwähnen.
Wir alle tun uns schwer damit, die Schwächen unserer eigenen Arbeit zu erkennen – das ist eine normale Eigenschaft des menschlichen Denkens. Aber wenn wir um unsere blinden Flecken wissen, können wir sie vermeiden.
Anmerkung der Redaktion: In einer früheren Version dieses Textes hieß es »die durchschnittliche Zahl (...)« und »die Spanne der entdeckten Fälle ist unabhängig von der Stichprobengröße (...)«. Auch wenn dies der Formulierung im englischen Original entsprach, haben wir den Text nun in der Übersetzung so angepasst, dass er die von der Autorin gemeinte Aussage wahrscheinlich besser trifft. Dem Leser von der Uni Wuppertal vielen Dank für seine Hinweise!
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.