Direkt zum Inhalt
Login erforderlich
Dieser Artikel ist Abonnenten mit Zugriffsrechten für diese Ausgabe frei zugänglich.

Statistik: Ein signifikanter Irrtum

Mit Hilfe des "p-Werts" beurteilen Forscher seit Jahrzehnten, wie aussagekräftig ihre Studienergebnisse sind. Doch wer sich allein auf diese Kennzahl verlässt, verfällt in pseudowissenschaftliches Denken.
Magische Zahl

Für einen kurzen Augenblick stand Matt Motyl an der Schwelle zum wissenschaftlichen Ruhm. 2010 entdeckte er bei einem Experiment, dass Extremisten die Welt in Schwarz und Weiß sehen – und das buchstäblich. Die Ergebnisse waren "völlig eindeutig", erinnert sich der Psychologiedoktorand von der University of Virginia in Charlottesville. Seine Studie an fast 2000 Probanden hatte ergeben, dass links- oder rechtsextrem eingestellte Menschen feine Grauschattierungen schlechter wahrnehmen können als solche mit gemäßigteren politischen Ansichten.

"Die Hypothese war nicht nur sexy", sagt ­Motyl, "sie wurde auch von den Daten gestützt." Das zeigte sich, als er den p-Wert errechnete – die übliche Art, die Aussagekraft eines statistischen Befunds zu beziffern. Er lag bei 0,01, das gilt als "hoch signifikant". Damit schien die Veröffentlichung in einer hochrangigen wissenschaftlichen Fachzeitschrift zum Greifen nah.

Doch Motyl und sein Betreuer Brian Nosek wollten auf Nummer sicher gehen und wiederholten das Experiment noch einmal. In der zweiten Studie mit 1300 Probanden sprang der p-Wert auf 0,59. Das liegt weit jenseits der Schwelle von 0,05, bis zu der ein Ergebnis als statistisch ­signifikant gilt. Mit dem Effekt verblasste Motyls Traum vom frühen wissenschaftlichen Ruhm.

Dabei waren weder die zuerst erhobenen Daten fehlerhaft noch war dem jungen Forscher ein Rechenfehler unterlaufen. Vielmehr illustriert dieses Beispiel, dass blindes Vertrauen in den p-Wert problematisch ist. Die Kennzahl ist nämlich keineswegs so verlässlich oder aussagekräftig, wie viele Wissenschaftler denken. "P-Werte leis­ten nicht, was sie sollen, weil sie das gar nicht können", sagt der Ökonom Stephen Ziliak von der Roosevelt University in Chicago, ein bekannter Kritiker des Verfahrens.

Schon vor einigen Jahren entbrannte eine Diskussion über die Replizierbarkeit von Studien­ergebnissen, also darüber, wie viele Befunde einer erneuten Überprüfung standhalten würden. Fälle wie Motyls, die den allgegenwärtigen p-Wert in Frage stellen, gießen zusätzlich Öl ins Feuer.

John Ioannidis, Epidemiologe an der Stanford University, hatte den Stein 2005 ins Rollen gebracht ...

Kennen Sie schon …

Spektrum - Die Woche – Wie die Guinness-Brauerei den t-Test erfand

Wer hätte gedacht, dass eine Brauerei der Geburtsort für eine der wichtigsten mathematischen Methoden ist? Dem Guiness-Bier haben wir zu verdanken, dass Ergebnisse in der Wissenschaft als statistisch signifikant gewertet werden können. Außerdem in dieser »Woche«: Wie Rauchen das Immunsystem stört.

Spektrum Psychologie – Kann die Persönlichkeit krank machen?

Der eine frisst den Ärger in sich hinein, der andere geht beim kleinsten Ärgernis in die Luft. Werden mache Menschen deshalb eher schwer krank? Das klären wir in dieser Ausgabe. Außerdem erzählen wir die Geschichte von Ella und ihren zwölf Ichs und beleuchten die Vor- und Nachteile des Auswanderns.

Spektrum Kompakt – Datenanalyse - Tücken der Interpretation

Von signifikanten Unterschieden ist gern die Rede, wenn Argumente mit Hilfe von Daten untermauert werden. Doch was steckt überhaupt hinter diesem und anderen statistischen Verfahren? Und welche Fehlinterpretationen können dabei entstehen?

  • Quellen

Cacioppo, J. T. et al.:Marital Satisfaction and Break-ups Differ Across On-line and Off-line Meeting Venues. In: Proceedings of the National Academy of Sciences of the USA 110, S. 10135-10140, 2013

Campbell, J. P.:Editorial: Some Remarks From the Outgoing Editor. In: Journal of Applied Psychology 67, S. 691-700, 1982

Goodman, S. N.:A Comment on Replication, P‐Values and Evidence. In: Statistics in Medicine 11, S. 875-879, 1992

Goodman, S. N.:Toward Evidence-Based Medical Statistics 1: The P Value Fallacy. In: Annals of Internal Medicine 130, S. 995-1004, 1999

Goodman, S. N.:Of P-Values and Bayes: A Modest Proposal. In: Epidemiology 12, S. 295-297, 2001

Ioannidis, J. P. A.:Why Most Published Research Findings Are False. In: PLoS Medicine 2, e124, 2005

Lambdin, C.:Significance Tests as Sorcery: Science is Empirical - Significance Tests are not. In: Theory & Psychology 22, S. 67-90, 2012

Nosek, B. A. et al.:Scientific Utopia II: Restructuring Incentives and Practices to Promote Truth Over Publishability. In: Perspectives on Psychological Science 7, S. 615-631, 2012

Simmons, J. P. et al.:False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. In: Psychological Science 22, S. 1359-1366, 2011

Simonsohn, U. et al.:P-Curve: A Key to the File-Drawer. In: Journal of Experimental Psychology: General 143, S.534-547, 2014

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.