Psychologische Studien: Die Hälfte ist mängelbehaftet
Die Forschungsmethoden der empirischen Psychologie sind zuletzt immer stärker in die Kritik geraten. Nun zeigt eine weitere Untersuchung, dass Autoren psychologischer Studien offenbar erhebliche Probleme damit haben, zentrale Werte ihrer Statistiken korrekt zu berechnen: Rund die Hälfte aller Studien aus dem Zeitraum zwischen 1985 und 2013, die jetzt ein Forscherteam analysierte, hatte den so genannten P-Wert falsch angegeben.
In 13 Prozent der Fälle stieß das Team sogar auf "schwere Ungereimtheiten". Bei diesen Studien war die Interpretation der Resultate durch den neu berechneten P-Wert nicht mehr gedeckt – beispielsweise weil die Neuberechnungen aus einem als "signifikant" bezifferten P-Wert ein nicht signifikanten machten.
Das Team um Michèle Nuijten von der Universität Tilburg hat dazu eine Software namens "statcheck" entwickelt. Sie kann PDF-Dokumente auf statistische Angaben absuchen, die in einem normierten Format angegeben werden. In den meisten Journals ist dies die gängige Praxis. Des Weiteren sucht statcheck nach Schlüsselwörtern, die auf die Art des statistischen Tests hinweisen ("one-tailed", "two-tailed"). Die extrahierten Daten verwendet die Software, um einen eigenen P-Wert zu berechnen und diesen mit dem berichteten Wert zu vergleichen.
Mit Hilfe von statcheck haben Nuijten und Kollegen nun 30 000 Psychologie-Paper aus insgesamt acht renommierten Journalen seit 1985 untersucht. Das Programm benötigte dazu gerade einmal zwei Stunden. "Im Schnitt enthält ein Psychologie-Artikel etwa elf P-Werte. Das bedeutet, was statcheck innerhalb eines Wimpernschlags analysiert, dauert per Hand ungefähr zehn Minuten", erklärt Nuijten dem Magazin "Nature".
In 16 700 Veröffentlichungen fand ihre Software solche statistischen Berechnungen, bei denen etwa 258 000 P-Werte angegeben wurden. Jeder zehnte davon zeigte Inkonsistenzen. Immerhin änderte sich dadurch in den meisten Fällen nichts an der Grundaussage. Zudem scheint sich die Fehlerhäufigkeit auch im Lauf der Jahre nicht verbessert oder verschlechtert zu haben – der Anteil falsch berechneter P-Wert blieb ungefähr immer gleich hoch.
Das Team um Nuijten hat die Software zur freien Verfügung gestellt. Da eine Überprüfung innerhalb kürzester Zeit geschehen könne, schlagen sie vor, künftig vor Veröffentlichung einen kurzen Check auf die Korrektheit der Statistik vorzunehmen. Journals würden ja auch routinemäßig ein Programm nach Plagiaten suchen lassen, so die Forscherin.
Schreiben Sie uns!
Beitrag schreiben