Statistik: Signifikante Fehler
Die Zahl von zell- oder molekularbiologischen Publikationen mit grundlegenden statistischen Fehlern ist alarmierend. Ich sehe Grafiken mit Fehlerbalken, die nicht beschriftet sind und so nicht anzeigen, was sie eigentlich beschreiben. Oder Fehlerbalken und Irrtumswahrscheinlichkeiten für einzelne, "repräsentative" Experimente. Als Gutachter dieser Fehler zunehmend überdrüssig, formuliere ich hier noch einmal die Grundlagen, die jeder Forscher wissen sollte [1].
Kurz gesagt: Statistiken und Fehlerbalken sollten nur für unabhängige Daten verwendet werden und nicht für identische Wiederholungen innerhalb eines einzelnen Experiments. Da sich wissenschaftliche Erkenntnis aus der Wiederholung von Beobachtungen oder Experimenten ergibt, müssen diese häufiger als einmal durchgeführt werden – oder sie müssen auf mehreren unabhängigen Stichproben beruhen. Nur so können wir uns darauf verlassen, dass die Ergebnisse kein Zufall, Koinzidenz oder gar falsch sind. Sich auf ein einzelnes, wenn auch repräsentatives, Experiment zu beschränken und diese Entscheidung dann mit falscher Statistik zu rechtfertigen, zerstört die Integrität wissenschaftlicher Literatur.
Vor acht Jahren hatte "Nature" eine Richtlinie für Veröffentlichungen eingeführt, der zufolge bei Grafiken mit Fehlerbalken anzugeben ist, was diese Fehlerbalken darstellen [2]. Trotzdem finden sich immer noch in den meisten Biologiemagazinen – inklusive "Nature" – Artikel, die diesbezüglich falsch sind und/oder andere grundlegende statistische Fehler enthalten. Meiner Meinung nach ist die weitere Publikation von wissenschaftlich derart schlampigen Artikeln ein Zeichen dafür, dass Autoren, Gutachter und Redakteure entweder keine Ahnung von Statistik oder den Artikel nicht gründlich gelesen haben – oder beides.
Wie kommt es dazu? Die meisten Zell- und Molekularbiologen lernen in der Oberstufe oder dem Grundstudium Grundlagen der Statistik. Diese scheinen jedoch irgendwann zwischen Studienabschluss und Start im Labor wieder verloren zu gehen. Oft sind die gelernten statistischen Methoden auch für ihre Experimente gar nicht anwendbar. Und im Labor machen sie dann im Allgemeinen sowieso das, was jeder macht, ohne allerdings immer genau zu verstehen, warum.
Die Publikation von wissenschaftlich derart schlampigen Artikeln ist ein Zeichen dafür, dass Autoren, Gutachter und Redakteure entweder keine Ahnung von Statistik oder den Artikel nicht gründlich gelesen haben – oder beides
Selbst wenn Biologen für ihre eigenen Experimente keine statistischen Beweise benötigen, so sollten sie doch eine Ahnung von den Grundlagen haben, um die Arbeiten von Kollegen kritisch beurteilen zu können. Sie müssen sich nicht in die komplexen statistischen Methoden einarbeiten oder Statistikexperten hinzuziehen, aber es gäbe weniger unsaubere Publikationen, wenn Autoren, Gutachter und Redakteure statistische Konzepte wie Standardabweichung oder Standardfehler des arithmetischen Mittels, Stichprobenfehler und den Unterschied zwischen verbundenen und unabhängigen Daten kennen würden.
An die Grundlagen erinnern
In den Lebenswissenschaften gibt es vor allem zwei Typen von Veröffentlichungen. Die einen nutzen große Datenmengen und beruhen vorwiegend oder sogar ausschließlich auf statistischer Beweisführung (zum Beispiel in der Epidemiologie, Psychologie, klinischen Versuchen und genomweiten Assoziationsstudien). Die anderen tun das nicht – wie viele Publikationen in der Zell- und Molekularbiologie, Biochemie oder klassischen Genetik.
Für Publikationen auf der Basis großer Datenmengen und ihrer statistischen Auswertung gibt es Empfehlungen, wie man beispielsweise den Stichprobenumfang berechnet oder Ausreißer dokumentiert [3,4]. Diese Richtlinien helfen den Autoren der anderen Artikel aber nicht weiter. Zell- und Molekularbiologen genießen den Luxus, dass sich ihre Versuchsanordnungen in vielen, unabhängigen Weisen beproben lassen. So kommen sie häufiger mit kleinen Stichprobenzahlen wie "n = 3" davon, ohne gehobene Statistik zu benötigen.
Die erste Abbildung in einem typischen zell- oder molekularbiologischen Artikel zum Beispiel könnte den Unterschied im Phänotyp von drei Wildtyp-Mäusen und drei Knockout-Mäusen zeigen. Die zweite Abbildung zeigt dann vielleicht die Proteingehalte in Zellen dieser Tiere, und zwar sowohl die des ausgeschalteten Proteins als auch eines seiner Substrate. Oder man stellt den Effekt dar, wenn die Wildtyp-Mäuse mit einem Inhibitor des in den anderen Tieren ausgeschalteten Proteins behandelt werden. Wenn die Ergebnisse aus diesen Experimenten in sich konsistent sind und ein stimmiges Modell stützen, ist es unnötig, 30 Mäuse jeden Typs zu untersuchen oder die Westernblots für die Proteingehalte 30-mal unabhängig durchzuführen. Die Veröffentlichung von Watson und Crick zur DNA-Struktur enthielt überhaupt keine Statistik, Graphen mit Fehlerbalken oder große Stichprobenzahlen [5].
Grundlegende Statistikkenntnisse würden Wissenschaftler aber davon abhalten, bei drei Wiederholungen eines repräsentativen Experiments eine Irrtumswahrscheinlichkeit und einen Standardfehler des arithmetischen Mittels zu berechnen. Und sie würden Gutachter und Redakteure davon abhalten, diese ohne Rückfrage im Artikel stehen zu lassen. Bei einem einzigen repräsentativen Experiment beträgt n = 1, und es ist keine Statistik anzuwenden. Abgesehen davon ist es übrigens besser, immer einen umfassenden Datensatz aufzulisten, als Resultate zurückzuhalten, die nicht repräsentativ sind. Wenn n = 2 oder 3 beträgt, ist es transparenter, lediglich die einzelnen Datenpunkte abzubilden und den Leser selbst interpretieren zu lassen, als möglicherweise irreführende Irrtumswahrscheinlichkeiten oder Fehlerbalken anzugeben und statistische Schlüsse zu ziehen.
Wenn die Ergebnisse eines Experiments jedoch fragwürdig sind oder die Effektstärke zu gering ist, dann macht es keinen Sinn, den Versuch so lange zu wiederholen, bis die Irrtumswahrscheinlichkeit unter 0,05 liegt. Vielmehr sollte man dann ein neues, in der Herangehensweise anderes Experiment entwickeln, um die Hypothese zu testen.
Statistische Auswertungen sollten zudem nur aus gutem Grund gezeigt werden. Beschreibende Statistik wie Spannweite oder Standardabweichung sind dann notwendig, wenn die Datenmenge zu groß ist, um sie einfach zu visualisieren. Induktive Statistik (Standardfehler, Konfidenzintervall oder Irrtumswahrscheinlichkeit/Signifikanzniveau) sollten nur auftauchen, wenn sie die Interpretation der Ergebnisse erleichtern. Sie sollten auf keinen Fall von anderen entscheidenden Überlegungen ablenken, wie dem Ausmaß der Effekte oder der biologischen Bedeutung.
Statistische Auswertungen sollten nur aus gutem Grund gezeigt werden
Die begleitenden Legenden sollten die Zahl der unabhängigen Datenpunkte enthalten. Wurde ein Experiment mehrmals wiederholt, sollte lediglich der Mittelwert der Wiederholungen als unabhängiger Datenpunkt erscheinen. Für Wiederholungen sind statistische Größen insgesamt unnötig, da sie nur einen Eindruck davon geben, wie gut diese Wiederholungen durchgeführt wurden: wie sauber das Pipettieren gelang, beispielsweise. Sie haben jedoch keine Aussagekraft für die geprüfte Hypothese [6].
Alle Forscher und alle Gutachter sollten wissen, welche Arten von Stichprobenfehlern auftreten können: etwa beim Bestimmen der prozentualen Anteile lebender und toter Zellen oder beim Auszählen von Kolonien auf einer Platte oder von Zellen unter dem Mikroskop. Sonst sind sie weder in der Lage, ihre eigenen Ergebnisse kritisch zu hinterfragen, noch, die Resultate anderer zu beurteilen.
Zurück auf die Schulbank
Doch wie lässt sich der derzeitige laxe Umgang mit Statistik verbessern? Sobald junge Forscher die Ergebnisse ihrer ersten Laborversuche haben, müssen sie in der Anwendung statistischer Methoden geschult werden. Und um gestandene Wissenschaftler zur richtigen Anwendung von Statistik anzuregen, sollten die Fachmagazine Richtlinien für Autoren, Gutachter und Redakteure aufstellen, wie Daten und Statistik im betreffenden Arbeitsfeld genutzt und dargestellt werden. Das "Journal of Cell Biology" nimmt hier eine Vorreiterrolle ein: Alle Abbildungen in den Artikeln werden vor der Veröffentlichung eingehend geprüft [7]. Artikel mit grundlegenden Fehlern sollten abgelehnt und Korrekturen für Fehler bereits publizierter Artikel schnell veröffentlicht werden. Dies erfordert aufmerksame Gutachter mit guten Statistikkenntnissen und Redakteure, die den Prozess verifizieren können. Das Zahlenmaterial sollte entweder im Artikel selbst oder verlinkt als computerlesbare Datei verfügbar sein, so dass die Leser selbst statistische Analysen durchführen oder nachvollziehen können.
Als sich der Englischprofessor William Strunk jr. einer steigenden Zahl von Fehlern in der Rechtschreibung, der Grammatik und dem Gebrauch der englischen Sprache gegenübersah, verfasste er 1918 eine kurze, praktische Anleitung, die "Elements of Style" [8]. Vielleicht brauchen Laborbiologen eine ähnlich kurze Fibel zur Statistik.
Schreiben Sie uns!
1 Beitrag anzeigen