Die fabelhafte Welt der Mathematik: Schwere statistische Fehler bei Studie zum Ursprung der Covid-Pandemie
Erinnern Sie sich noch an die Anfänge der Corona-Pandemie im Jahr 2020? Ich war damals in Indonesien, wo sich die Folgen durch ausbleibende Touristen aus China bereits bemerkbar machten. Als ich zurück nach Deutschland reiste, wurde wenige Tage später der erste Lockdown ausgerufen, die Geschäfte geschlossen und meine Kolleginnen und Kollegen sowie ich ins Homeoffice berufen. Gerade noch mal Glück gehabt: Ohne Ansteckung und ohne größere Rückführaktion war ich wieder zu Hause angekommen.
Dass sich Covid-19 offenbar von China aus verbreitete, stand auch damals schon fest, und sehr schnell schien der Feinkost-Nassmarkt in Wuhan, der Huanan-Markt, als Ursprungsort festzustehen. Dabei handelte es sich um einen 50 000 Quadratmeter großen Markt mit über 1000 Unternehmen, die dort verschiedene Waren verkaufen. Bereits vor dem Ausbruch der Pandemie galt der Markt als Risikofaktor für Zoonosen, da dort auch mit lebenden Wildtieren gehandelt wurde. Ob es sich dabei wirklich um den Ursprungsort der Pandemie handelt, lässt sich allerdings bis heute nicht mit 100-prozentiger Sicherheit sagen: Vor Ort gesammelte Proben konnten zwar das Coronavirus nachweisen, doch es ist unklar, ob wirklich dort das Virus erstmals auf den Menschen übersprang – oder ob es sich an diesem Ort voller Menschen nur besonders gut verbreitete.
2022 erschien im Fachjournal »Science« eine Studie mit deutlichem Titel: »The Huanan Seafood Wholesale Market in Wuhan was the early epicenter of the Covid-19 pandemic« (Der Huanan Seafood Wholesale Market in Wuhan war das frühe Epizentrum der Covid-19-Pandemie). In dieser Arbeit haben der Biologe Michael Worobey von der University of Arizona und sein Team unter anderem eine statistische Analyse durchgeführt, mit dem Fazit, die Pandemie habe im Huanan-Markt begonnen. Die Studie wurde inzwischen mehr als 400 000-mal heruntergeladen, von 260 anderen wissenschaftlichen Publikationen zitiert und sorgte auch in der Presse für Schlagzeilen.
Irreführende Statistik
Doch wie sich herausstellt, enthält der statistische Teil der Arbeit offenbar schwere Fehler. »Ihre statistischen Argumente sind nicht überzeugend und liefern keine ausreichenden Beweise für die Behauptung, dass der Markt das frühe Epizentrum war«, schreiben der Mathematiker Dietrich Stoyan von der TU Bergakademie Freiberg und sein Kollege Sung Nok Chiu von der Hong Kong Baptist University in einer im Januar 2024 im Fachjournal »Journal of the Royal Statistical Society Series A« erschienenen Arbeit.
Statistik ist ein zweischneidiges Schwert: Das mathematische Teilgebiet ermöglicht es einerseits, erstaunliche Schlüsse zu ziehen. Andererseits klingen vorgebrachte Argumente oft plausibel, selbst wenn sie sich bei genauerem Hinsehen als falsch erweisen. Das kann vermeintliche Paradoxa erzeugen oder Überraschungen beim Glücksspiel hervorbringen. Falsch angewandte Statistik kann allerdings auch schwer wiegende Folgen haben: In der Vergangenheit hat das bereits zu fehlerhaften Urteilen und unrechtmäßigen Gefängnisstrafen geführt.
Auch die »Science«-Studie hat viele Fachleute zunächst überzeugt. Die statistische Analyse scheint auf den ersten Blick sinnhaft. Das Team um Worobey hat die Wohnorte der ersten erkrankten Personen in Wuhan lokalisiert und gezeigt, dass sich der Huanan-Markt im geografischen Zentrum dieser Orte befindet. Zusammen mit den Hinweisen, dass in dem betreffenden Zeitraum potenziell ansteckende Wildtiere auf dem Markt verkauft wurden und an diesen Ständen Spuren des Virus zu finden waren, kommen die Autorinnen und Autoren zu ihrem Schluss: »Der Huanan-Markt war das Epizentrum der Pandemie«, wie es in der Zusammenfassung ihrer Arbeit heißt.
Wie bestimmt man das Zentrum einer Pandemie?
Um das frühe geografische Zentrum der Pandemie zu bestimmen, haben Worobey und sein Team zunächst Daten der Weltgesundheitsorganisation herangezogen, in denen die Wohnorte der ersten Covid-19-Fälle verzeichnet sind. So hatten sie die ungefähren Adressen von 155 Personen, die im Dezember 2019 in Wuhan an Covid-19 erkrankt waren. Als sie die Punkte auf einer Karte verzeichneten, ließ sich erkennen, dass sich der Huanan-Markt offenbar recht mittig innerhalb dieser Punktwolke befindet.
Um das mathematisch zu untermauern, haben die Fachleute mehrere Verfahren angewandt. Zunächst haben sie die Koordinaten der Daten herangezogen und jeweils den Median gebildet: den Wert, der größer als exakt die eine Hälfte der Datenpunkte und kleiner als die andere ist. Damit stellt der Median eine Art Mittelwert dar, der statistischen Ausreißern – im Gegensatz zum arithmetischen Mittel – nicht zu viel Gewicht gibt. Durch dieses Vorgehen berechneten die Forschenden das Zentrum der Punkte, das nur 1,02 Kilometer vom Huanan-Markt entfernt ist.
Um herauszufinden, ob das ein signifikanter Wert ist, haben die Fachleute das Ergebnis mit einer Zufallsverteilung verglichen. Dafür haben sie die Bevölkerungsdichte in Wuhan und das mittlere Alter der dort lebenden Anwohner herangezogen, um daraus 155 zufällig verteilte Punkte auszuwählen. Je dichter ein Ort besiedelt ist, umso wahrscheinlicher wird ein Punkt von dort gewählt. Die zufällig erzeugten Punkte sollten zudem die Altersgruppen der 155 Erkrankten widerspiegeln. An dieser Stelle flossen die demografischen Informationen in die Auswahl ein. Anschließend haben die Fachleute das Zentrum dieser willkürlich gewählten Punkte ermittelt – und das Ganze 1000-mal wiederholt: erneut 155 zufällig verteilte Punkte ausgewählt und das Zentrum bestimmt. Wie sich herausstellt, liegt dieses Zentrum durchschnittlich 4,65 Kilometer vom Huanan-Markt entfernt – also deutlich weiter als das Zentrum der 155 tatsächlich erkrankten Personen.
Auch die durchschnittliche Entfernung (gemäß dem Median) zum Huanan-Markt haben die Forscherinnen und Forscher um Worobey einmal für die 155 verzeichneten Fälle sowie für die 1000-mal simulierten zufälligen Punkte berechnet. Mit dem Ergebnis, dass die 155 Erkrankten im Schnitt 4,28 Kilometer vom Markt entfernt wohnen, wohingegen der Median der Zufallsverteilung 16,11 Kilometer beträgt.
Außerdem haben die Fachleute eine Verteilungsfunktion zu den 155 vorliegenden Fällen berechnet (einen so genannten Kerndichteschätzer), anhand derer sich ablesen lässt, in welchem Bereich sich wahrscheinlich das Zentrum von Datenpunkten befindet. Auch diese Untersuchung bestätigte ihre These, dass der Huanan-Markt der Ursprungsort der Pandemie sei: Der Markt liegt innerhalb des Perzentils von Wuhan, das mit der höchsten Wahrscheinlichkeit das Zentrum der Daten enthält.
Probleme bei der Auswertung des Zentrums
An der Analyse haben Stoyan und Chiu jedoch einiges auszusetzen. Ein wichtiger Punkt ist, dass sich in unmittelbarer Nähe des Huanan-Markts noch andere Orte befinden, die – zumindest aus statistischer Sicht – als Zentrum der Pandemie in Frage kommen: etwa der Bahnhof Hankou, das Wuhan Center for Disease Control and Prevention (kurz: CDC), einige Hotels und das Einkaufszentrum Wanda Plaza. All diese Orte haben die Forschenden um Worobey in ihrer Untersuchung nicht berücksichtigt.
Ein weiterer Kritikpunkt ist die gewählte Methode, um das Zentrum von Datenpunkten zu bestimmen. Der Median stellt nur ein mögliches Verfahren dafür dar; eine weitere Methode besteht zum Beispiel darin, das arithmetische Mittel der Koordinaten zu bilden. Auch ein Kerndichteschätzer, wie ihn Worobey und sein Team genutzt haben, lässt sich verwenden. Dabei zeigt sich, dass in allen drei Fällen das CDC und der Bahnhof Hankou wegen ihrer Nähe zum Huanan Markt als Epizentrum in Frage kommen.
Stoyan und Chiu warnen jedoch: »Für alle drei gewählten Darstellungen des ›Zentrums‹ (…) gibt es keine statistischen Argumente, die darauf hindeuten, dass es sich um gültige Schätzungen des pandemischen Ursprungs handelt.« Grund für diese Bedenken ist, dass Covid-19 eine ansteckende Krankheit ist und sich damit dynamisch ausbreitet. Eine statische geografische Analyse für einen solchen Fall heranzuziehen, ist eine drastische Vereinfachung der realen Situation.
Covid ist eine ansteckende Krankheit
Dieses Problem äußert sich an mehreren Stellen. In der »Science«-Studie wurden die Datenpunkte beispielsweise als unabhängige Ereignisse behandelt, die in keinem Zusammenhang stehen. Doch einige der Daten sind offenbar miteinander verbunden – schon allein, weil es sieben Fälle mit derselben Anschrift gab und sich die Personen daher höchstwahrscheinlich gegenseitig angesteckt haben. Deshalb haben Stoyan und Chiu die vorige Analyse wiederholt, dabei aber immer wieder einige der 155 gemeldeten Fälle weggelassen. Damit veränderten sich die möglichen Zentren der betrachteten Datenpunkte. Auf diese Weise konnten sie untersuchen, wie stabil das Ergebnis ist: Variiert das Resultat stark, wenn man die Eingabedaten leicht verändert?
»Falls der Ursprung der Pandemie wirklich in der Nähe des ›Zentrums‹ liegt, dann ist das Wanda Plaza verdächtiger als der Markt«Dietrich Stoyan, Sung Nok Chiu, Mathematiker
Wie sich herausstellte, verschiebt sich das gemittelte Zentrum der Datenpunkte dadurch in Richtung Osten. »Falls der Ursprung der Pandemie wirklich in der Nähe des ›Zentrums‹ der Punktwolke liegt, dann ist das Wanda Plaza im Kontext der Statistik möglicherweise verdächtiger als der Markt«, schreiben Stoyan und Chiu. Und auch die Besucherdaten, die sich anhand von Social-Media-Posts zumindest grob schätzen lassen, zeigen, dass im Wanda Plaza etwa 16 000 Menschen zugegen waren, während sich beim Huanan-Markt lediglich 120 Besucherinnen und Besucher nachweisen lassen.
Stoyan und Chiu bemängeln auch die von der »Science«-Studie herangezogene Zufallsverteilung, die zum Vergleich mit den Daten genutzt wurde. Zwar haben Worobey und seine Kolleginnen und Kollegen darauf geachtet, eine ähnliche Altersgruppe auszuwählen und die Bevölkerungsdichte in Wuhan zu berücksichtigen. Allerdings haben sie in diesem Fall ignoriert, dass Covid-19 eine ansteckende Krankheit ist – und es daher wahrscheinlich ist, dass die Fälle geografisch gehäuft auftreten. Eine Zufallsverteilung, wie sie Worobey und sein Team erzeugt haben, weist hingegen kaum Häufungen auf, vielmehr tauchen die Punkte mit Abstand voneinander auf. »Dass die Fälle der Bevölkerungsdichte folgen, entspricht der Annahme, dass die Krankheit nicht ansteckend ist«, schreiben Styan und Chiu.
Der stärkste Kritikpunkt von Stoyan und Chiu an der »Science«-Studie betrifft ebenfalls die erzeugte Zufallsverteilung. Wenn man zufällig gewählte Punkte (völlig egal, nach welcher Regel) in ganz Wuhan auswählt, dann ist die Wahrscheinlichkeit extrem gering, dass das Zentrum auf einen Punkt in der Nähe des Huanan-Markts – oder irgendeines anderen festgelegten Orts – fällt. Alle auf diese Weise erzeugten Punkte erstrecken sich über die gesamte Stadt Wuhan, einer gigantischen Metropole mit elf Millionen Einwohnern und einer Fläche, die dem Zehnfachen der Stadt Berlin entspricht. Eine so breite Verteilung von zufälligen Punkten wird immer eine größere Distanz zum Zentrum einer ansteckenden Krankheit aufweisen, bei der die Fälle Cluster bilden.
Damit haben die beiden Mathematiker gezeigt, dass die statistischen Argumente der »Science«-Studie nicht haltbar sind. Das bedeutet natürlich nicht, dass der Huanan-Markt nicht der Ursprung der Pandemie ist – schließlich gibt es neben der statistischen Analyse auch andere Hinweise darauf, dass die Krankheit dort erstmals auf den Menschen übertragen wurde. Doch die Untersuchung liefert wieder einmal ein Beispiel dafür, wie vorsichtig man mit statistischen Analysen und ihren Auswertungen sein sollte.
Schreiben Sie uns!
Beitrag schreiben