Direkt zum Inhalt

Die fabelhafte Welt der Mathematik: Ein Leben hinter Gittern wegen falscher Statistik?

Die Kinderkrankenschwester Lucia de Berk wurde des siebenfachen Mordes bezichtigt und verurteilt. Die Beweisführung basierte jedoch auf fragwürdigen statistischen Berechnungen.
Gefängniszelle mit Zahlen
Die Kinderkrankenschwester Lucia de Berk wurde zu lebenslanger Haft verurteilt. Doch Statistiker setzten sich für sie ein – und sie wurde schließlich freigesprochen.

2001 starb ein Baby aus ungeklärten Gründen im Juliana-Kinderkrankenhaus in Den Haag. Zu diesem Zeitpunkt hatte die Krankenschwester Lucia de Berk ihre Schicht. Ihre Kolleginnen und Kollegen beschlich daraufhin ein furchtbarer Verdacht: Im letzten Jahr hatte es auf der Station insgesamt acht Zwischenfälle gegeben, bei denen ein Kind entweder verstarb oder reanimiert wurde – jedes Mal während de Berks Schicht. Kann das Zufall sein?

Die Polizei begann zu ermitteln. Nachdem sie auch Daten von zwei anderen Stationen zusammengetragen hatte, auf denen de Berk beschäftigt war, kam der Fall vor Gericht: Neben den gehäuften Vorfällen in ihrer Anwesenheit wurden im Blut zweier verstorbener Patienten von de Berk verdächtige Substanzen gefunden. Zudem deutete ein Tagebucheintrag der Krankenschwester auf eine mögliche kriminelle Handlung hin, dort hieß es, sie werde ihren »Zwängen nachgeben«. Der Kriminologe Henk Elffers, der zuvor Mathematik studiert hatte, sollte als Gutachter die Wahrscheinlichkeit dafür angeben, dass sich die gehäuften Zwischenfälle während de Berks Schicht zufällig ereignet hatten. Das Ergebnis: 1 zu 342 000 000.

Angesichts der erdrückenden Beweislage sprach das Gericht de Berk im Jahr 2003 des vierfachen Mordes und dreifachen versuchten Mordes schuldig. Nach einer Berufung im folgenden Jahr wurde sie sogar für sieben Morde verurteilt – und sollte ihr Leben hinter Gittern verbringen. Als »Engel des Todes« sorgte die Krankenschwester international für Schlagzeilen. Doch wie sich herausstellen sollte, lässt die Statistik auch vollkommen andere Schlüsse zu. De Berk beteuerte durchweg, sie sei unschuldig – nach mehr als sechs Jahren Haft kam die Justiz schließlich zum selben Schluss. Inzwischen gilt der Fall de Berk als einer der größten Justizirrtümer der Niederlande.

Lucia de Berk | Die Kinderkrankenschwester wurde zu unrecht wegen mehrfachen Mordes verurteilt.

Diese Neuentwicklung brachte ein Buch ins Rollen: »Lucia de B.: Reconstructie van een Gerechtelijke Dwaling« (auf Deutsch: »Rekonstruktion eines Justizirrtums«), das der Wissenschaftsphilosoph Ton Derksen 2006 herausgebracht hat. Seine Schwester, die Geriaterin Metta de Noo, hatte ihn auf den Fall aufmerksam gemacht. De Noo ist die Schwägerin der Stationsleiterin des Juliana-Krankenhauses, in dem de Berk gearbeitet hatte. Als de Noo die Beweise gegen die Verurteilte durchsah, erkannte sie einige Unstimmigkeiten: So ließen sich die Substanzen in den Körpern der beiden verstorbenen Kinder, die mutmaßlich vergiftet wurden, auch durch ihre Therapie erklären. Zudem habe de Berk die Ärzte auf den sich verschlechternden Gesundheitszustand der jungen Patienten immer wieder aufmerksam gemacht. Als Derksen sich dem Fall widmete, fand er weitere juristische Mängel, die er in seinem Buch zusammenfasste.

Als der Statistiker Richard Gill das Buch entdeckte, nahm er erstmals die statistische Analyse von Elffers unter die Lupe. »2003 hatte ich das nicht für nötig gehalten«, erklärte Gill der Fachzeitschrift »Science«, denn er kenne den Kollegen und habe um seinen guten Ruf gewusst. Diese Nachlässigkeit bereut er inzwischen: Er hätte de Berk schon viel früher helfen können.

»So etwas wie eine ›beste‹ statistische Analyse gibt es nicht«

Wie sich inzwischen herausgestellt hat, ließen sich viele Punkte des Verfahrens anfechten. Obwohl das Gericht betonte, die Verurteilung fuße nicht auf statistischen Ergebnissen, hat Derksen offengelegt, dass Statistik und falsche Intuition die Entscheidungsfindung durchzogen haben. »Das Problem ist, dass viele statistische Modelle existieren, die zu völlig anderen Ergebnissen führen«, erklärt Gill zusammen mit drei Kollegen in einem Fachartikel. »So etwas wie eine ›beste‹ statistische Analyse gibt es nicht«, fahren die vier Mathematiker fort.

Viele Menschen denken, Mathematik sei kompliziert und öde. In dieser Serie möchten wir das widerlegen – und stellen unsere liebsten Gegenbeispiele vor: von schlechtem Wetter über magische Verdopplungen hin zu Steuertricks. Die Artikel können Sie hier lesen oder als Buch kaufen.

Allerdings sind sich viele Fachleute einig: Die Auswertung von Elffers, die schließlich zu de Berks Verurteilung führte, enthält extrem fragwürdige Annahmen. Das verdeutlicht eine Petition, die Gill 2007 aufgesetzt hat und die von mehr als 80 Professorinnen und Professoren unterschrieben wurde, darunter dem Nobelpreisträger Gerardus 't Hooft. Sie alle halten Elffers Analyse für nicht zutreffend und verlangten, dass der Fall neu aufgerollt werden sollte.

Dass Statistik manchmal unterschiedliche Schlüsse zulässt, ist nicht neu. Gerade in lebensnahen Situationen spielt es eine wichtige Rolle, welche Daten man unter welchen Annahmen miteinbezieht. Und selbst wenn man die Analyse sehr vorsichtig durchführt, ist bei der Interpretation der Ergebnisse ebenfalls große Sorgfalt gefragt: Denn aus Korrelation folgt keine Kausalität, oftmals gibt es unbekannte Faktoren, die einen Ausgang beeinflussen können.

Liegt überhaupt ein Verbrechen vor?

Bei medizinischen Kriminalfällen gestaltet sich das Ganze noch schwieriger: Anders als bei den meisten anderen Tötungsdelikten ist noch nicht einmal klar, ob überhaupt ein Verbrechen begangen wurde. Zudem können in Krankenhäusern viele äußere Faktoren den Zustand der Patienten beeinflussen: die Jahreszeit, die Luftqualität, Grippe- oder andere Krankheitswellen, der Tag-und-Nacht-Rhythmus, die Pflegekraft sowie die ärztliche Betreuung. Das alles in einem statistischen Modell zu berücksichtigen, ist quasi unmöglich.

De Berk hatte zwischen 1999 und 2001 auf drei verschiedenen Stationen gearbeitet. Elffers stützte seine statistische Analyse auf die Anzahl ihrer Schichten, die Gesamtzahl aller Schichten, die Gesamtzahl der vermerkten Vorfälle sowie die Zwischenfälle während de Berks Schicht:

Krankenhaus und Station Juliana KH Rotes Kreuz KH – 41 Rotes Kreuz KH – 42 Summe
Gesamtzahl Schichten 1029 366 339 1734
De Berks Schichten 142 1 58 201
Gesamtzahl Vorfälle 8 5 14 27
Vorfälle während de Berks Schicht 8 1 5 14

Bereits die Daten an sich sind fragwürdig, wie Gill zusammen mit seinen Kollegen Piet Groeneboom und Peter de Jong in der Statistik-Zeitschrift »Chance« 2018 erklärt: So wurde später ermittelt, dass de Berk auf der Station 41 des Roten-Kreuz-Krankenhauses eigentlich drei und nicht nur eine Schicht gemacht hatte. Zudem gab es keine klare Definition, was als »Vorfall« zu deuten sei, und keine vollständige Dokumentation der Ereignisse – manche Zahlen basieren auf Erinnerungen von Zeugen, die bereits wussten, dass de Berk beschuldigt wurde. Zudem wurde die Art der Zwischenfälle nicht berücksichtigt: So könnte es sein, dass ein wiederbelebter Patient kurz darauf verstarb – und die Person damit in den Daten doppelt auftauchte.

Elffers ignorierte diese Schwachstellen bei seiner Auswertung. Er nutzte ein statistisches Modell, das als hypergeometrische Verteilung bekannt ist. Mit dieser lässt sich die Wahrscheinlichkeit dafür berechnen, dass innerhalb einer Stichprobe eine bestimmte Anzahl von Ereignissen enthalten ist. Sprich: Wenn es auf Station 42 des Roten-Kreuz-Krankenhauses während 339 Schichten insgesamt 14 Vorfälle gab, wie wahrscheinlich ist es dann, während 58 Schichten 5 Vorfälle mitzuerleben?

Die Antwort lässt sich durch das Ziehen von Kugeln veranschaulichen: Eine Truhe enthält 339 Kugeln, von denen 14 blau sind, die übrigen rot. Man möchte herausfinden, wie wahrscheinlich es ist, unter 58 gezogenen Kugeln 5 blaue zu finden. Man schließt also die Augen und greift nach und nach 58 Kugeln heraus. Nach jedem Zug leert sich die Truhe. Am Ende enthält sie bloß noch 339−58 = 281 Kugeln, darunter 14−5 = 9 blaue. Um die Wahrscheinlichkeit für ein solches Ereignis zu berechnen, muss man zunächst einige Größen kennen: zum Beispiel die Anzahl der Möglichkeiten, aus 14 blauen Kugeln 5 auszuwählen, was der Binomialkoeffizienten B(14, 5) angibt. Es gibt außerdem B(339−14, 58−5) Möglichkeiten, 53 rote Kugeln unter allen Roten zu ziehen. Um herauszufinden, wie wahrscheinlich es ist, die betrachtete Stichprobe zu ziehen, muss man diese beiden Binomialkoeffizienten multiplizieren und das Ergebnis durch die Anzahl der Möglichkeiten teilen, generell 58 aus 339 Kugeln auszuwählen (B(339, 58)). Damit kommt man zu einem Ergebnis von 0,05: Die Stichprobe taucht also mit einer Wahrscheinlichkeit von fünf Prozent auf.

Alles nur Zufall?

Um über die Schuld oder Unschuld von de Berk zu entscheiden, muss man natürlich berücksichtigen, wie hoch die Wahrscheinlichkeit ist, unter den 58 Schichten fünf Vorfälle oder mehr (bis hin zu den gesamten 14) zu erleben. Das heißt, man muss die einzelnen Wahrscheinlichkeiten addieren. Damit erhält man eine Gesamtwahrscheinlichkeit von 0,0716. Also beträgt die Chance – auf Basis des verwendeten statistischen Modells –, dass de Berk die Zwischenfälle zufällig erlebt hat, etwa 7,1 Prozent.

Diese Berechnungsmethode nutzte Elffers, um die Wahrscheinlichkeit auf den einzelnen Stationen separat zu berechnen. Für Station 41 im Rotes-Kreuz-Krankenhaus lässt sich mit den Daten (wonach de Berk nur eine Schicht absolviert habe) das Ergebnis direkt angeben: 5366 ≈ 0,014. Aufsummieren muss man hier nichts mehr, da sie nur eine Schicht dort hatte. Dass sie ausgerechnet währenddessen zufällig einen Zwischenfall miterlebt, entspricht laut Elffers einer Wahrscheinlichkeit von 1,4 Prozent.

Schließlich bleiben die acht Vorfälle im Juliana-Krankenhaus, bei denen de Berk stets anwesend war. Auch hier muss man daher nichts summieren: B(8, 8)· B(1021, 134)/B(1029, 142) ≈ 1,1·10−7. Da die Daten aus dem Juliana-Krankenhaus de Berk überhaupt als Verdächtige identifizierten, erkannte Elffers, dass man sie anders behandeln müsse. Er entschloss sich daher, die Wahrscheinlichkeit dafür zu berechnen, dass irgendeine Krankenschwester so viele Vorfälle miterlebt. Da 27 Krankenpflegerinnen in diesem Krankenhaus arbeiteten, hat er sein Ergebnis mit dieser Zahl multipliziert, wodurch sich die Wahrscheinlichkeit auf 2,99·10−6 erhöht. Dass eine beliebige Krankenschwester so viele Zwischenfälle während 142 Schichten auf der Station erlebt, beträgt seinen Berechnungen nach also etwa 1 zu 333 333.

Krankenhaus und Station Juliana KH Rotes Kreuz KH – 41 Rotes Kreuz KH – 42 multipliziert
Wahrscheinlichkeiten 2,99·10−60,014 0,0716 2,92·10−9

Was macht man nun mit den drei Ergebnissen? Elffers ging davon aus, dass die Ereignisse vollkommen unabhängig voneinander sind und man sie daher einfach miteinander multiplizieren könne: 0,071559 · 0,014 · 2,99·10−6 ≈ 2,92·10−9. Anders ausgedrückt: Die Wahrscheinlichkeit, dass de Berk zufällig all diese Vorfälle erlebt hat, beträgt Elffers zufolge 1 zu 342 Millionen. Dieses niederschmetternde Ergebnis überzeugte das Gericht, dass etwas nicht mit rechten Dingen zuging.

Fachleute protestieren gegen die Verurteilung

Als Gill diese Analyse sah, sträubten sich ihm die Haare. Ein Kritikpunkt besteht beispielsweise darin, dass Elffers die drei Stationen getrennt voneinander betrachtet. Er hätte ebenso vergleichbare Stationen der gesamten Niederlande zum Vergleich heranziehen können. Dann wäre der Datensatz größer und damit die statistische Aussagekraft höher. Zum Beispiel fragt man sich auch nicht, wie wahrscheinlich es ist, dass jemand aus Baden-Württemberg im Lotto gewinnt – oder der Gewinner aus einer bestimmten Stadt wie Heidelberg stammt. Je kleiner man den Umkreis wählt, desto geringer wird die Wahrscheinlichkeit – doch das hat keine Aussagekraft. »Subjektivität ist dabei unumgänglich«, schreiben Gill und seine Kollegen, »deshalb ist es fraglich, ob eine gerichtliche Entscheidung auf einem solchen Modell beruhen sollte.«

Ein weiterer gravierender Punkt ist, dass Elffers die Einzelwahrscheinlichkeiten der drei Stationen einfach miteinander multipliziert hat: »Das hat die absurde Konsequenz, dass eine Krankenschwester, die in mehreren Krankenhäusern arbeitet, automatisch eine höhere Chance hat, verdächtigt zu werden, als eine, die in nur einem Krankenhaus arbeitet«, schreiben Gill und seine Kollegen. Das ist in de Berks Situation ebenfalls der Fall. Betrachtet man anders als Elffers die Gesamtwerte all ihrer Schichten und Zwischenfälle, erhält man ein anderes Ergebnis: Indem man die Wahrscheinlichkeiten für 14 oder mehr Gesamtvorfälle summiert (Bin(27, 14) · Bin(1707, 187)/Bin(1734, 201) + Bin(27, 15) · Bin(1707, 186)/Bin(1734, 201) + …), kommt dabei die Chance von 1 zu 3,8 Millionen heraus – das ist zwar immer noch kein beruhigendes Ergebnis, aber um einen Faktor 100 besser als das von Elffers berechnete. Und in diesem Fall wurde der Korrekturfaktor von 27 (die Anzahl der Krankenschwestern) gar nicht miteingerechnet.

Möchte man dennoch zwischen den Stationen unterscheiden, gibt es eine bessere Methode, um die einzelnen Wahrscheinlichkeiten miteinander zu verbinden. Dabei kann man beispielsweise die »Fisher-Methode« benutzen, die häufig bei Metaanalysen verwendet wird: Dabei summiert man den Logarithmus der einzelnen Wahrscheinlichkeiten, multipliziert ihn mit dem Faktor −2 und erhält damit eine Zahl, die dem Chi-Quadrat-Wert einer Verteilung entspricht. Die Idee dahinter besteht darin, das Produkt von Wahrscheinlichkeiten mit dem Produkt gleichmäßig verteilter Zufallszahlen zwischen 0 und 1 zu vergleichen – damit verschwindet der Nachteil, der sich durch die Arbeit auf mehreren Stationen sonst ergibt. Setzt man die konkreten Zahlenwerte in Fishers Test ein, ergibt sich eine Gesamtwahrscheinlichkeit von 1 zu 16 000 000 – ein deutlich kleineres Ergebnis als das von Elffers.

Ein weiterer Schwachpunkt von Elffers Analyse ist, dass er die Daten des Juliana-Krankenhauses doppelt miteinbezogen hat: einmal, um de Berk als Verdächtige zu identifizieren, und dann nochmals, um seine Hypothese zu bestätigen. Das hat er zwar versucht zu korrigieren, indem er das Ergebnis am Juliana-Krankenhaus mit den dort arbeitenden 27 Schwestern multipliziert hat. Aus Sicht der Fachleute um Gill ist das allerdings nicht gerechtfertigt. Denn damit impliziert man, dass jede Krankenschwester dieselbe Wahrscheinlichkeit hat, einen Zwischenfall zu bezeugen. Aber das Personal ist wahrscheinlich nicht in gleich viele Schichten eingeteilt. Fairer wäre es daher, die Vorfallsrate jeder Krankenschwester zu berücksichtigen und mit jener von de Berk zu vergleichen. Damit hat man aber andere Faktoren noch immer nicht berücksichtigt: So ist das Personal höchstwahrscheinlich nicht gleichmäßig über die Schichten verteilt. Je nachdem, wer nachts oder tagsüber arbeitet oder während welcher Saison, hat eine unterschiedliche Chance, einen Vorfall zu bezeugen. Auch der Charakter einer Krankenschwester kann die Anzahl der Vorfälle beeinflussen: So wird eine selbstsichere Person eher später einen Arzt zu Hilfe bitten und damit einen Vorfall auslösen.

Ein alternatives statistisches Modell liefert völlig andere Zahlen

Deshalb verwendet Gill zusammen mit Groeneboom und de Jong ein anderes Modell, um die Wahrscheinlichkeit für die Häufung der Vorfälle in de Berks Anwesenheit zu erklären. Dafür beschreiben sie die Anzahl der Zwischenfälle durch einen Poisson-Prozess, der bei der Modellierung seltener Ereignisse genutzt wird. Die Forscher nehmen zudem an, dass jede Krankenschwester einen anderen Erwartungswert λ besitzt, wonach sich ein Zwischenfall während ihrer Schicht ereignet. Damit hängt die Anzahl k der Vorfälle, die eine Krankenschwester sieht, von λ und der Anzahl r ihrer Schichten ab – und folgt einer Poisson-Verteilung: \(P(k) = e^{-\lambda r} \frac{(\lambda r)^k}{k!}\).

Die Berechnung der Forscher ist nun von der Wahl des Parameters λ abhängig. Der Datensatz lässt allerdings keine detaillierte Analyse zu, da man nicht weiß, wie viele Vorfälle die anderen Krankenschwestern bezeugt haben. Auf allen drei Stationen gab es während 1734 Schichten insgesamt 27 Zwischenfälle, also kann man von einer durchschnittlichen Vorfallsrate von μ = 271734 ausgehen. Eine unschuldige de Berk würde demnach im Mittel 201·μ Vorfälle während ihrer 201 Schichten erleben, also 3,13. Als Gill, Groeneboom und de Jong anhand ihres Modells kalkulierten, wie wahrscheinlich es ist, dass de Berk 14 Vorfälle beobachtet hat, erhielten sie ein deutlich anderes Resultat als Elffers: Demnach beträgt die Wahrscheinlichkeit, dass sie all diese Zwischenfälle zufällig bezeugt hat, 0,0206 beziehungsweise 1 zu 49. Das entspricht der Wahrscheinlichkeit einer Person in Deutschland, während ihres Lebens an schwarzem Hautkrebs zu erkranken. Gills Modell zufolge ist es gar nicht mehr so unwahrscheinlich, dass de Berk einfach nur Pech gehabt hat.

Ein weiterer wichtiger Punkt ist die Stabilität der Ergebnisse. Da die medizinischen Aufzeichnungen in de Berks Fall teilweise auf Erinnerungen basieren, ist es durchaus möglich, dass die angegebenen Werte nicht vollkommen korrekt sind. Daher ist es wichtig, die genutzten Modelle daraufhin zu überprüfen. Wie ändern sich die Ergebnisse, wenn die Eingaben leicht variieren? Gill, Groeneboom und de Jong haben untersucht, wie sich die Wahrscheinlichkeiten verändern, wenn im Juliana-Krankenhaus weitere Vorfälle außerhalb von de Berks Schicht gemeldet worden wären: Gemäß der Datenlage gab es keine weiteren Zwischenfälle, was zu einer Wahrscheinlichkeit von etwa eins zu neun Millionen geführt hat. Hätte es hingegen drei weitere Vorfälle gegeben, reduziert sich der Wert auf zirka 1 zu 80 000. Das sind enorme Schwankungen, die man berücksichtigen muss.

All diese vorgebrachten Argumente sowie medizinische Hinweise und Erklärungen für die Tagebucheinträge (de Berk machte sich laut ihrer Tochter wohl Notizen für einen Thriller, den sie schreiben wollte) führten dazu, dass das Gericht im Jahr 2008 den Fall wieder aufnahm. Zwei Jahre später wurde de Berk schließlich freigesprochen. Tatsächlich ist ihr Fall nicht der einzige, bei dem falsch angewandte Statistik zu Fehlverurteilungen führte: So wurde 1999 die Britin Sally Clark verurteilt, weil ihre zwei Kinder den plötzlichen Kindstod starben. Auf einen statistischen Gutachter wurde damals verzichtet, »schließlich handelt es sich dabei nicht um Raketenwissenschaft«.

Aber vielleicht sollte man solche Probleme wie Raketenwissenschaft behandeln – das sollte spätestens der Fall de Berk offenbart haben. Je nachdem, welches statistische Modell (die alle plausibel klingen) genutzt wird, erhält man mit gleichen Eingabedaten Ergebnisse, die von 1 zu 342 000 000 bis 1 zu 49 reichen. Aus diesem Grund hat die Royal Statistical Society im September 2022 einen Report veröffentlicht, in dem sie Fehler in vergangenen Prozessen analysiert und Ratschläge gibt, wie man in Zukunft besser verfahren könne. Bleibt zu hoffen, dass sich die Justiz diese zu Herzen nimmt.

​​Was ist euer Lieblingsmathetheorem? Schreibt es gerne in die Kommentare – und vielleicht ist es schon bald das Thema dieser Kolumne!

Schreiben Sie uns!

1 Beitrag anzeigen

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.