Freistetters Formelwelt: Der feine Unterschied zwischen System und Willkür
In der Wissenschaft geht es darum, etwas Neues über die Welt herauszufinden. Das ist zwar richtig, aber auch ein wenig missverständlich formuliert. Besser wäre es zu sagen: In der Wissenschaft geht es darum, die Welt besser zu verstehen – wozu man aber nicht zwingend etwas Neues entdecken muss.
Schauen wir auf diese harmlos aussehende, aber durchaus problematische Formel:
Für viele Forscherinnen und Forscher ist diese Gleichung Grund zur Freude. Mit p wird der p-Wert oder »Signifikanzwert« bezeichnet. Ein p-Wert, der kleiner als 0,05 ist, gilt in vielen wissenschaftlichen Disziplinen als Schwelle, ab der ein Resultat als statistisch signifikant angesehen wird. Oder anders gesagt: Ein ausreichend kleiner p-Wert wird als Beleg dafür betrachtet, dass man tatsächlich etwas Neues entdeckt hat.
Alle Folgen seiner wöchentlichen Kolumne, die immer sonntags erscheint, finden Sie hier.
Um zu erkennen, was daran problematisch ist, muss man sich mit der Definition des p-Werts beschäftigen. Das ist gar nicht so einfach und selbst in vielen Lehrbüchern wird sie fehlerhaft dargestellt. Ganz simpel kann man den p-Wert so beschreiben: Die Zahl gibt an, wie wahrscheinlich es ist, dass das Ergebnis meiner Forschung genau so ausfällt, obwohl der Effekt, den ich finden will, in Wahrheit nicht da ist.
Wenn ich zum Beispiel herausfinden will, ob eine bestimmte politische Partei häufiger von Männern oder von Frauen gewählt wird, kann ich eine entsprechende Studie machen. Angenommen, ich finde zwischen den Geschlechtern einen Unterschied von zehn Prozent bei der Parteipräferenz. Was bedeutet das? Vielleicht wählen Männer und Frauen tatsächlich unterschiedlich. Vielleicht habe ich aber auch nur zufällig Personen für die Studie ausgewählt, bei denen der Unterschied von zehn Prozent auftritt. Würde ich die Studie wiederholen, könnte ein anderer Unterschied herauskommen. Abhilfe kann der p-Wert schaffen, den man mit den entsprechenden statistischen Methoden berechnet. Nehmen wir an, in unserem Fall läge der p-Wert bei 0,03, dann würde das folgendes bedeuten: Wenn es tatsächlich keinen geschlechtsspezifischen Unterschied gibt, würde man trotzdem in drei Prozent aller Studien rein zufällig den von mir gemessenen Unterschied finden.
Ein niedriger Standard wird zur Regel
Kann ich jetzt also behaupten, dass der Effekt, den ich mit der fiktiven Studie gefunden habe, real ist? Genau hier steckt das Problem: Darauf gibt es keine verbindliche Antwort. Es kommt darauf an, ob ich mit den drei Prozent Wahrscheinlichkeit zufrieden bin. In vielen wissenschaftlichen Disziplinen würde man diesen p-Wert akzeptieren, da er unter der Signifikanzschwelle von 0,05 liegt. Aber Signifikanz bedeutet in diesem Fall nicht, dass das Ergebnis irgendwie bedeutsam ist, sondern weist nur auf eine statistische Eigenschaft der Daten hin. Zudem ist die Wahl von p = 0,05 als Schwellenwert recht willkürlich. Sie geht auf den britischen Statistiker Ronald Fisher zurück, der sie in einer 1926 erschienenen Arbeit mit folgenden Worten empfohlen hat: »Personally, the writer prefers to set a low standard of significance at the 5 per cent point, and ignore entirely all results which fails to reach this level.«
Hier wird die Problematik besonders deutlich. Forscherinnen und Forscher neigen dazu, Ergebnisse zu ignorieren, die den willkürlichen p-Wert von 0,05 nicht unterschreiten. Und Fachzeitschriften neigen dazu, keine Ergebnisse zu akzeptieren, die nicht statistisch signifikant sind. Das Resultat: Ein relevanter Teil an Forschung wird nicht publiziert und diese Verzerrung verfälscht unser Wissen über die Welt. Denn wir müssen nicht nur wissen, was ist – sondern auch, was nicht ist.
Schreiben Sie uns!
2 Beiträge anzeigen