Der p-Wert markiert den Unterschied zwischen System und Willkür

Freistetters Formelwelt: Der feine Unterschied zwischen System und Willkür

Wer in der Forschung nichts entdeckt, hat versagt? Das kann man so nicht sagen – denn wir können auch von Ergebnissen außerhalb der statistischen Signifikanz lernen.

von Florian Freistetter

Binäre Zahlen, durch die ein Riss verläuft — © wildpixel / Getty Images / iStock (Ausschnitt)
Meist schenkt man nur kleinen p-Werten Beachtung. Doch auch die übrigen Ergebnisse können wichtig sein.

In der Wissenschaft geht es darum, etwas Neues über die Welt herauszufinden. Das ist zwar richtig, aber auch ein wenig missverständlich formuliert. Besser wäre es zu sagen: In der Wissenschaft geht es darum, die Welt besser zu verstehen – wozu man aber nicht zwingend etwas Neues entdecken muss.

Schauen wir auf diese harmlos aussehende, aber durchaus problematische Formel:

Für viele Forscherinnen und Forscher ist diese Gleichung Grund zur Freude. Mit p wird der p-Wert oder »Signifikanzwert« bezeichnet. Ein p-Wert, der kleiner als 0,05 ist, gilt in vielen wissenschaftlichen Disziplinen als Schwelle, ab der ein Resultat als statistisch signifikant angesehen wird. Oder anders gesagt: Ein ausreichend kleiner p-Wert wird als Beleg dafür betrachtet, dass man tatsächlich etwas Neues entdeckt hat.

Die legendärsten mathematischen Kniffe, die übelsten Stolpersteine der Physikgeschichte und allerhand Formeln, denen kaum einer ansieht, welche Bedeutung in ihnen schlummert: Das sind die Bewohner von Freistetters Formelwelt.
Alle Folgen seiner wöchentlichen Kolumne, die immer sonntags erscheint, finden Sie hier.

Um zu erkennen, was daran problematisch ist, muss man sich mit der Definition des p-Werts beschäftigen. Das ist gar nicht so einfach und selbst in vielen Lehrbüchern wird sie fehlerhaft dargestellt. Ganz simpel kann man den p-Wert so beschreiben: Die Zahl gibt an, wie wahrscheinlich es ist, dass das Ergebnis meiner Forschung genau so ausfällt, obwohl der Effekt, den ich finden will, in Wahrheit nicht da ist.

Wenn ich zum Beispiel herausfinden will, ob eine bestimmte politische Partei häufiger von Männern oder von Frauen gewählt wird, kann ich eine entsprechende Studie machen. Angenommen, ich finde zwischen den Geschlechtern einen Unterschied von zehn Prozent bei der Parteipräferenz. Was bedeutet das? Vielleicht wählen Männer und Frauen tatsächlich unterschiedlich. Vielleicht habe ich aber auch nur zufällig Personen für die Studie ausgewählt, bei denen der Unterschied von zehn Prozent auftritt. Würde ich die Studie wiederholen, könnte ein anderer Unterschied herauskommen. Abhilfe kann der p-Wert schaffen, den man mit den entsprechenden statistischen Methoden berechnet. Nehmen wir an, in unserem Fall läge der p-Wert bei 0,03, dann würde das folgendes bedeuten: Wenn es tatsächlich keinen geschlechtsspezifischen Unterschied gibt, würde man trotzdem in drei Prozent aller Studien rein zufällig den von mir gemessenen Unterschied finden.

Ein niedriger Standard wird zur Regel

Kann ich jetzt also behaupten, dass der Effekt, den ich mit der fiktiven Studie gefunden habe, real ist? Genau hier steckt das Problem: Darauf gibt es keine verbindliche Antwort. Es kommt darauf an, ob ich mit den drei Prozent Wahrscheinlichkeit zufrieden bin. In vielen wissenschaftlichen Disziplinen würde man diesen p-Wert akzeptieren, da er unter der Signifikanzschwelle von 0,05 liegt. Aber Signifikanz bedeutet in diesem Fall nicht, dass das Ergebnis irgendwie bedeutsam ist, sondern weist nur auf eine statistische Eigenschaft der Daten hin. Zudem ist die Wahl von p = 0,05 als Schwellenwert recht willkürlich. Sie geht auf den britischen Statistiker Ronald Fisher zurück, der sie in einer 1926 erschienenen Arbeit mit folgenden Worten empfohlen hat: »Personally, the writer prefers to set a low standard of significance at the 5 per cent point, and ignore entirely all results which fails to reach this level.«

Hier wird die Problematik besonders deutlich. Forscherinnen und Forscher neigen dazu, Ergebnisse zu ignorieren, die den willkürlichen p-Wert von 0,05 nicht unterschreiten. Und Fachzeitschriften neigen dazu, keine Ergebnisse zu akzeptieren, die nicht statistisch signifikant sind. Das Resultat: Ein relevanter Teil an Forschung wird nicht publiziert und diese Verzerrung verfälscht unser Wissen über die Welt. Denn wir müssen nicht nur wissen, was ist – sondern auch, was nicht ist.

Schreiben Sie uns!

2 Beiträge anzeigen

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Freistetters Formelwelt: Der feine Unterschied zwischen System und Willkür

Ein niedriger Standard wird zur Regel

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Freistetters Formelwelt: Was ist so super am Supermond?

Freistetters Formelwelt: Warum die 24 wahrhaft einzigartig ist

Methodendebatte: Schickt die statistische Signifikanz in den Ruhestand!

Themenkanäle

Statistik

Zahlentheorie

Die neue Generation von Computern

SponsoredPartnerinhalte