Angemerkt!: Laxe Datenanalyse
Wer es mit den statistischen Methoden beim Neuroimaging nicht genau nimmt, kann sogar tote Fische zum Leben erwecken.
Auf der diesjährigen Tagung der Organization for Human Brain Mapping (OHBM), die im Juni in San Francisco stattfand, drängten sich viele der insgesamt 2500 Teilnehmer in einen viel zu kleinen Hörsaal. Sie wollten den Abschlussvortrag über Fortschritte bei der Kartierung des menschlichen Gehirns mittels funktioneller Magnetresonanztomografie (fMRT) hören, traditionell ein Höhepunkt des Kongresses. Der Vortragende berichtete von vielen Glanzlichtern der Tagung, darunter ein Beitrag, der den meisten Teilnehmern – so auch mir – sonst wohl nicht aufgefallen wäre. Der Saal tobte.
Craig Bennett von der University of California in Santa Barbara hatte ein fMRT-Experiment vorgestellt, in dem er einem Probanden für je zehn Sekunden Fotos von Menschen in unterschiedlichen sozialen Situationen präsentierte. Der Freiwillige sollte, im Hirnscanner liegend, die Emotionen benennen, die die abgebildete Person jeweils empfand. Wie die Auswertung der fMRT-Daten ergab, traten im Gehirn des Betreffenden tatsächlich vereinzelt höhere Aktivierung bei Präsentation der Fotos auf als unter der Ruhebedingung. Nur das Benennen der Emotionen klappte nicht so recht – kein Wunder, denn der "Proband" war ein toter Fisch! Genauer gesagt, ein 45 Zentimeter langer, mehr als anderthalb Kilogramm schwerer Atlantischer Lachs (Salmo salar).
Was soll das? Haben seriöse Hirnforscher nichts Besseres zu tun? Bennett machte das Unmögliche möglich: Er demonstrierte, dass man tatsächlich Hirnaktivität in einem toten Lachs nachweisen kann. Die experimentelle Prozedur glich dabei der Vorgehensweise bei vielen fMRT-Untersuchungen am Menschen. Der naheliegende Verdacht: Womöglich erfüllen viele der dabei kartierten Gehirnareale in Wahrheit gar nicht die vermutete Funktion! Alles nur Artefakte? Nicht ganz.
Bennett wollte auf ein methodisches Problem hinweisen, das sich immer dann ergibt, wenn statistische Tests mehrfach gerechnet werden. Bei jedem einzelnen Durchgang legen Forscher meist eine Irrtumswahrscheinlichkeit von fünf Prozent zu Grunde. Das bedeutet, bei 100 Tests erhält man im Schnitt fünfmal fälschlicherweise ein positives Ergebnis. Die Wahrscheinlichkeit, dass in 100 Durchgängen mindestens ein solcher Fehlalarm auftritt, beträgt sogar mehr als 99 Prozent.
Diese Gefahr ist bei der fMRT besonders groß, weil hier oft 50 000 und mehr Orte im Gehirn auf ihre Beteiligung an einer gegebenen Wahrnehmungs- oder Verhaltensaufgabe geprüft werden. Die Zahl potenzieller falsch-positiver Befunde steigt folglich dramatisch. Um diesem Problem vorzubeugen, wählen manche Studienleiter ein höheres, so genanntes Signifikanzniveau. Die Irrtumswahrscheinlichkeit liegt dann oft bei nur ein Promille. Doch auch Bennett legte die Latte in seinem Lachsversuch so hoch – und stieß dennoch bei insgesamt gut 8000 Tests auf 16 "aufgabenkorrelierte" Hirnaktivierungen.
Mathematische Korrekturverfahren, die zur Vermeidung falsch-positiver Ergebnisse in allen gängigen Programmen für die fMRT-Analyse integriert sind, bleiben zu häufig ungenutzt. Angewandt auf Bennetts Datensatz war bei dem toten Lachs dann keine Hirnaktivierung mehr nachzuweisen. Gott sei Dank!
Die Studie offenbarte also keine neuronalen Korrelate von empathischen Fähigkeiten toter Fische. Sie verdeutlicht aber auf ebenso anschauliche wie witzige Weise, dass multiple statistische Vergleiche ohne entsprechende Korrektur zu völlig abstrusen Schlüssen verleiten können. Und dies betrifft nicht nur die fMRT; es ist ein ganz allgemeines und oft unterschätztes Problem der mathematischen Datenauswertung. Wer allzu lax mit ihr umgeht, kommt schnell in Teufels Küche.
Schreiben Sie uns!
Beitrag schreiben