Reproduzierbarkeit von Forschung: Psychologische Studien sind oft nur kurz richtig
Fälschungsskandale, manipulierte Studiendaten und als Zufallsbefunde enttarnte Ergebnisse haben die psychologische Forschung in eine Glaubwürdigkeitskrise geführt. Allerdings hat dies auch schon Gegenmaßnahmen zur Qualitätssicherung ausgelöst: zunächst zum Beispiel verstärkte Versuche, sich einen genaueren Überblick über die Reproduzierbarkeit von Veröffentlichungen zu verschaffen und das Ausmaß des Problems abzuschätzen. Ein solcher Versuch im Rahmen des "Reproducibility Project: Psychology", bei dem Freiwillige 100 veröffentlichte psychologische Studien noch einmal nachgestellt und überprüft haben, liefert nun ein erstes Ergebnis – und zieht ein bedenkliches Zwischenfazit: Die Mehrzahl der überprüften Studien ließen sich in der Tat zunächst einmal nicht nachvollziehen.
Die Botschaft ist allerdings nuancierter, als es auf den ersten Blick scheint: Zwar konnten 69 der 100 Studien nicht vollständig reproduziert werden, zumindest aber waren unter den Studien nur 15, bei denen sich nicht einmal ein halbwegs dem ursprünglichen Resultat entsprechender Befund andeutete. Typischerweise wurden etwa Signifikanzwerte nicht ganz erreicht – was aber nicht beweist, dass die getestete Hypothese sicher falsch sein muss. Einige Verhaltensstudien wurden daher als nicht reproduziert gewertet, obwohl etwa das beobachtete Handlungsmuster dem der ursprünglichen Studie augenscheinlich entsprach.
Die derzeit selbst noch nicht publizierten und daher vorläufigen Ergebnisse des Tests bestätigen allerdings frühere ähnliche Untersuchungen, die Anlass zur Sorge geben. Daniele Fanelli – er forscht über die Problematik von statistischen und wissenschaftlich-publizistischen Fehlleistungen an der Stanford University – meint gegenüber "Nature News", dass auch mit diesem Resultat die psychologische Forschung kaum schlechter abschneide als andere Forschungszweige: Frühere Versuche, Studien in der Krebsmedizin oder Arzneistoffentwicklung zu reproduzieren, hätten eher noch höhere Ausfälle ans Licht gebracht.
Für den neuen Test hatten Wissenschaftler freiwillig alte Studien wiederholt, wobei sie einem strengen Kriterienkanon folgen mussten. Nicht selten standen die Autoren der ursprünglichen Studie und die Nachtester übrigens in kollegialem Austausch, um eine möglichst strenge Reproduzierbarkeit sicherzustellen. Einige der freiwilligen Tester weisen zudem auf technische Gründe hin, die eine exakte Reproduzierbarkeit erschwerten oder verhinderten und so das Endergebnis beeinflussten. Solche Faktoren könnten in einem Peer-Review-Verfahren nun bewertet werden, bevor, wie geplant, das Magazin "Science" die Resultate endgültig veröffentlichen wird.
Schreiben Sie uns!
Beitrag schreiben