Statistik: Signifikante Zahlenspiele
Sie gilt als unbeliebt, knochentrocken und stinklangweilig: Statistik. Dennoch ist sie aus der Wissenschaft nicht mehr weg zu denken, führt sie doch erst zu präzisen Aussagen - oder zu fatalen Fehlinterpretationen.
"Statistisches Denken wird für den mündigen Bürger eines Tages dieselbe Bedeutung haben wie die Fähigkeit, lesen und schreiben zu können", prophezeite zu Beginn des 20. Jahrhunderts der Wissenschaftler und Science-Fiction-Autor Herbert George Wells (1866-1946). In der Tat gehört der Umgang mit Zahlen heutzutage zum Alltag – uns wird vorgerechnet, wo wir unser Geld anlegen, wie wir uns versichern, was wir einkaufen sollen und welche Regierung wir zukünftig haben werden. Doch leider ist auch heute, etwa hundert Jahre nach H.G. Wells, statistisch geschultes Denken immer noch die Ausnahme.
Wie Zahlen gedreht und gewendet werden können, um jede beliebige Aussage zu unterstützen, wurde uns in den Nachwehen des PISA-Debakels vor Augen geführt. Fast jedes bildungspolitische Ziel – Ganztagsschulen oder eben nicht, dreigliedriges Schulsystem oder Gesamtschulen, Zentralabitur ja oder nein – ließ sich mit PISA-Zahlen begründen. Je nachdem, welche Zahlen herangezogen, welchen Zusammenhängen eine Bedeutung zugemessen wurde und welche schlicht ausgeblendet wurden. Wer den innerdeutschen Sieger Bayern hochhielt, zog andere Schlüsse, als wer das gute Abschneiden der skandinavischen Länder in den Mittelpunkt stellte.
Vorgetäuschte Genauigkeit
Zahlen können lügen. Nicht nur dann, wenn sie nach Belieben zurechtgedeutet werden, sondern auch, wenn sie nicht vorhandenes Wissen vortäuschen. Je präziser die Zahlen, desto eher werden sie geglaubt – man unterstellt ausführliche Recherche. 1 372 910 neue Fälle von Krebs in den USA sagt die American Cancer Society für das Jahr 2005 voraus, 710 040-mal werden Männer, 662 870-mal Frauen betroffen sein. 1,41 Liter Wasserzufuhr durch Getränke empfiehlt die Deutsche Gesellschaft für Ernährung Menschen zwischen 25 und 51. Meist resultieren solche Aussagen aus diversen Rechenmanövern – ein grob geschätztes Artensterben von 27 000 Arten pro Jahr wird zum Beispiel umgerechnet in 74 Arten pro Tag. Zweiteres ist dann nicht mehr wörtlich zu nehmen, die Grundaussage stimmt dennoch: Es sind zu viele.
Verloren im Datenwust
Irren ist menschlich. Auch Wissenschaftler sind Menschen, sie irrten sich in der Vergangenheit, und sie werden dies weiter tun. Gerade heute, im "postgenomischen" Zeitalter, hantiert die Forschung mit immer komplexeren Datensätzen, wodurch die statistische Analyse entsprechend komplizierter und fehleranfälliger wird. Gen-Assoziationsstudien zum Beispiel, die einen Zusammenhang zwischen genetischen Merkmalen und Krankheiten untersuchen, scheinen häufig Opfer statistischer Fehlinterpretationen zu sein. Fast immer tragen mehrere genetische Faktoren zu einer Krankheit bei, entsprechend schwach ist unter Umständen der Beitrag eines einzelnen Merkmals. Solch schwache Assoziationen zwischen Merkmal und Krankheit sind dann leicht mit unsignifikanten, statistischen Fluktuationen zu verwechseln. Noch dazu sind die Datenmengen enorm. Pro Studie werden mehrere tausend genetische Merkmale verglichen, da kommen zufällige Schwankungen durchaus vor. Eine Meta-Analyse von Kirk Lohmueller und Joel Hirschhorn ergab, dass Gen-Assoziationsstudien in der Tat nur in weniger als der Hälfte der Fälle reproduzierbar sind.
Konsequenzen hat das vermutlich keine. Weitestgehend korrigiert sich die Forschung durch die gegenseitige Kontrolle der Wissenschaftler selbst, sie lernt aus ihren Fehlern. Statistische Kriterien für Korrelationsstudien müssen noch enger definiert und ihre Ergebnisse mit anderen Methoden überprüft werden. Nicht reproduzierbare Studien werden schlicht in Vergessenheit geraten.
"Beweise" für Vorurteile
Aber nicht immer greift die wissenschaftliche Kontrolle, und mitunter tragen sich Fehler über mehrere Forschergenerationen fort. Wissenschaftler sind Teil einer Gesellschaft und damit von Zeitgeist und herrschenden Vorurteilen beeinflusst – wie die Mitglieder einer jeden anderen Berufsgruppe auch. Häufig hat die Wissenschaft Vorurteile nicht nur nicht widerlegt, sondern sogar statistisch untermauert. Beispielsweise wurden über Jahrhunderte hinweg Unmengen von Daten herangeschafft, um die Überlegenheit des Mannes gegenüber der Frau und der weißen Rasse gegenüber allen anderen zu dokumentieren. Gehirnumfang, -volumen, -gewicht und -furchung sowie Intelligenzquotient mussten dafür herhalten – wenn eines der Kriterien schließlich in der Vorurteilsbestätigung versagte, wurde das nächste eingesetzt, damit die Statistik wieder "stimmte". Dass Fehler dieser Art nicht ohne gesellschaftliche Konsequenzen bleiben, ist nur allzu eindeutig.
Auch in der praktischen Medizin gibt es statistische Fallstricke und auch hier – oder gerade hier – bleibt das nicht ohne Konsequenzen für den Einzelnen. Gerade bei Vorsorgetests irren sich Mediziner auch heute noch oft hinsichtlich der Aussagekraft – und zwar nicht, weil sie nicht über die Trefferquote informiert sind, sondern weil sie die Statistik falsch interpretieren. Die Häufigkeit falsch positiver, relativ zu wirklich positiven Ergebnissen, wird dadurch unterschätzt.
Wie hoch ist das Risiko?
Der Aids-Test zum Beispiel liefert zwar nur etwa ein falsch positives Ergebnis unter 10 000 Tests, aber das entspricht in einer Gruppe von Menschen ohne Risikoverhalten auch etwa der Rate der infizierten. Unter 10 000 Menschen ohne Risikoverhalten würden also durchschnittlich zwei Menschen positiv getestet – einer davon ist infiziert, der andere nicht. Ein positives Testergebnis bedeutet dementsprechend – rein statistisch – nur zu 50 Prozent auch eine Infektion. Laut einer Umfrage von Gerd Gigerenzer und Kollegen am Max-Planck-Institut für Bildungsforschung sind sich die meisten Aids-Berater in deutschen Gesundheitsämtern dessen nicht bewusst.
Bei anderen Vorsorgetests ist die Rate falsch positiver Ergebnisse noch höher. Wird eine Frau beim Mammografie-Screening positiv getestet, ist das noch kein Grund zur Panik – in neun von zehn Fällen handelt es sich lediglich um Fehlalarm. Auch wegen seiner fragwürdigen Nützlichkeit ist das Verfahren in letzter Zeit oft kritisiert worden. Zwar wirbt der Test damit, die Brustkrebsrate um 25 Prozent bis 30 Prozent senken zu können, jedoch berücksichtigen diese Angaben nicht, mit welcher Häufigkeit Brustkrebs in der Bevölkerung überhaupt vorkommt oder tödlich verläuft. Ohne Mammografie-Screening sterben in einem Zeitraum von zehn Jahren etwa 8 von 1000 Frauen im Alter von 50 bis 70 Jahren an Brustkrebs, mit sind es nur 6. Das Risiko an Brustkrebs zu sterben verringert sich für die einzelne Frau durch zehn Jahre Früherkennungsuntersuchung entsprechend lediglich um 0,2 Prozent.
In einer Gesellschaft, in der immer neue Techniken entwickelt werden, die uns vor Risiken schützen sollen, wird es umso wichtiger, etwas von Statistik zu verstehen. So trocken das Thema auch erscheinen mag – die Mühe lohnt sich.
Wie Zahlen gedreht und gewendet werden können, um jede beliebige Aussage zu unterstützen, wurde uns in den Nachwehen des PISA-Debakels vor Augen geführt. Fast jedes bildungspolitische Ziel – Ganztagsschulen oder eben nicht, dreigliedriges Schulsystem oder Gesamtschulen, Zentralabitur ja oder nein – ließ sich mit PISA-Zahlen begründen. Je nachdem, welche Zahlen herangezogen, welchen Zusammenhängen eine Bedeutung zugemessen wurde und welche schlicht ausgeblendet wurden. Wer den innerdeutschen Sieger Bayern hochhielt, zog andere Schlüsse, als wer das gute Abschneiden der skandinavischen Länder in den Mittelpunkt stellte.
Vorgetäuschte Genauigkeit
Zahlen können lügen. Nicht nur dann, wenn sie nach Belieben zurechtgedeutet werden, sondern auch, wenn sie nicht vorhandenes Wissen vortäuschen. Je präziser die Zahlen, desto eher werden sie geglaubt – man unterstellt ausführliche Recherche. 1 372 910 neue Fälle von Krebs in den USA sagt die American Cancer Society für das Jahr 2005 voraus, 710 040-mal werden Männer, 662 870-mal Frauen betroffen sein. 1,41 Liter Wasserzufuhr durch Getränke empfiehlt die Deutsche Gesellschaft für Ernährung Menschen zwischen 25 und 51. Meist resultieren solche Aussagen aus diversen Rechenmanövern – ein grob geschätztes Artensterben von 27 000 Arten pro Jahr wird zum Beispiel umgerechnet in 74 Arten pro Tag. Zweiteres ist dann nicht mehr wörtlich zu nehmen, die Grundaussage stimmt dennoch: Es sind zu viele.
"Statistisches Denken wird für den mündigen Bürger eines Tages dieselbe Bedeutung haben wie die Fähigkeit, lesen und schreiben zu können"
(H.G. Wells)
Andere Berechnungen – wie präzise auch immer – sind dagegen völlig aus der Luft gegriffen. Erzbischof Usshers Datierung der Vertreibung aus dem Paradies auf Montag, den 10. November 4004 v.Chr., ist wohl kaum auf eine unsinnig präzise Umrechnung einer gut begründeten Schätzung zurückzuführen; und auch das hartnäckige Gerücht, dass der Mensch nur 10 Prozent seines Gehirns nutzt, erklärt sich bestenfalls durch sich selbst. Fazit: Die Richtigkeit einer Angabe hängt nicht unbedingt von ihrer Präzision ab. (H.G. Wells)
Verloren im Datenwust
Irren ist menschlich. Auch Wissenschaftler sind Menschen, sie irrten sich in der Vergangenheit, und sie werden dies weiter tun. Gerade heute, im "postgenomischen" Zeitalter, hantiert die Forschung mit immer komplexeren Datensätzen, wodurch die statistische Analyse entsprechend komplizierter und fehleranfälliger wird. Gen-Assoziationsstudien zum Beispiel, die einen Zusammenhang zwischen genetischen Merkmalen und Krankheiten untersuchen, scheinen häufig Opfer statistischer Fehlinterpretationen zu sein. Fast immer tragen mehrere genetische Faktoren zu einer Krankheit bei, entsprechend schwach ist unter Umständen der Beitrag eines einzelnen Merkmals. Solch schwache Assoziationen zwischen Merkmal und Krankheit sind dann leicht mit unsignifikanten, statistischen Fluktuationen zu verwechseln. Noch dazu sind die Datenmengen enorm. Pro Studie werden mehrere tausend genetische Merkmale verglichen, da kommen zufällige Schwankungen durchaus vor. Eine Meta-Analyse von Kirk Lohmueller und Joel Hirschhorn ergab, dass Gen-Assoziationsstudien in der Tat nur in weniger als der Hälfte der Fälle reproduzierbar sind.
Konsequenzen hat das vermutlich keine. Weitestgehend korrigiert sich die Forschung durch die gegenseitige Kontrolle der Wissenschaftler selbst, sie lernt aus ihren Fehlern. Statistische Kriterien für Korrelationsstudien müssen noch enger definiert und ihre Ergebnisse mit anderen Methoden überprüft werden. Nicht reproduzierbare Studien werden schlicht in Vergessenheit geraten.
"Beweise" für Vorurteile
Aber nicht immer greift die wissenschaftliche Kontrolle, und mitunter tragen sich Fehler über mehrere Forschergenerationen fort. Wissenschaftler sind Teil einer Gesellschaft und damit von Zeitgeist und herrschenden Vorurteilen beeinflusst – wie die Mitglieder einer jeden anderen Berufsgruppe auch. Häufig hat die Wissenschaft Vorurteile nicht nur nicht widerlegt, sondern sogar statistisch untermauert. Beispielsweise wurden über Jahrhunderte hinweg Unmengen von Daten herangeschafft, um die Überlegenheit des Mannes gegenüber der Frau und der weißen Rasse gegenüber allen anderen zu dokumentieren. Gehirnumfang, -volumen, -gewicht und -furchung sowie Intelligenzquotient mussten dafür herhalten – wenn eines der Kriterien schließlich in der Vorurteilsbestätigung versagte, wurde das nächste eingesetzt, damit die Statistik wieder "stimmte". Dass Fehler dieser Art nicht ohne gesellschaftliche Konsequenzen bleiben, ist nur allzu eindeutig.
Auch in der praktischen Medizin gibt es statistische Fallstricke und auch hier – oder gerade hier – bleibt das nicht ohne Konsequenzen für den Einzelnen. Gerade bei Vorsorgetests irren sich Mediziner auch heute noch oft hinsichtlich der Aussagekraft – und zwar nicht, weil sie nicht über die Trefferquote informiert sind, sondern weil sie die Statistik falsch interpretieren. Die Häufigkeit falsch positiver, relativ zu wirklich positiven Ergebnissen, wird dadurch unterschätzt.
Wie hoch ist das Risiko?
Der Aids-Test zum Beispiel liefert zwar nur etwa ein falsch positives Ergebnis unter 10 000 Tests, aber das entspricht in einer Gruppe von Menschen ohne Risikoverhalten auch etwa der Rate der infizierten. Unter 10 000 Menschen ohne Risikoverhalten würden also durchschnittlich zwei Menschen positiv getestet – einer davon ist infiziert, der andere nicht. Ein positives Testergebnis bedeutet dementsprechend – rein statistisch – nur zu 50 Prozent auch eine Infektion. Laut einer Umfrage von Gerd Gigerenzer und Kollegen am Max-Planck-Institut für Bildungsforschung sind sich die meisten Aids-Berater in deutschen Gesundheitsämtern dessen nicht bewusst.
Bei anderen Vorsorgetests ist die Rate falsch positiver Ergebnisse noch höher. Wird eine Frau beim Mammografie-Screening positiv getestet, ist das noch kein Grund zur Panik – in neun von zehn Fällen handelt es sich lediglich um Fehlalarm. Auch wegen seiner fragwürdigen Nützlichkeit ist das Verfahren in letzter Zeit oft kritisiert worden. Zwar wirbt der Test damit, die Brustkrebsrate um 25 Prozent bis 30 Prozent senken zu können, jedoch berücksichtigen diese Angaben nicht, mit welcher Häufigkeit Brustkrebs in der Bevölkerung überhaupt vorkommt oder tödlich verläuft. Ohne Mammografie-Screening sterben in einem Zeitraum von zehn Jahren etwa 8 von 1000 Frauen im Alter von 50 bis 70 Jahren an Brustkrebs, mit sind es nur 6. Das Risiko an Brustkrebs zu sterben verringert sich für die einzelne Frau durch zehn Jahre Früherkennungsuntersuchung entsprechend lediglich um 0,2 Prozent.
In einer Gesellschaft, in der immer neue Techniken entwickelt werden, die uns vor Risiken schützen sollen, wird es umso wichtiger, etwas von Statistik zu verstehen. So trocken das Thema auch erscheinen mag – die Mühe lohnt sich.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.