Der Trugschluß des Ermittlers
Nach langem Verhör legt der Beschuldigte ein Geständnis ab. Dann ist es doch wahrscheinlicher als zuvor, daß er der Täter ist? Nicht unbedingt.
Die Mathematik hält Einzug in die Gerichtssäle. Die Verwendung mathematisch interpretierbarer Begriffe ist zwar nicht neu: In Deutschland pflegt man schon seit langem einen Angeklagten zu verurteilen, wenn er "mit an Sicherheit grenzender Wahrscheinlichkeit" der Täter ist; und nach angelsächsischer Rechtstradition wird die Jury angewiesen, einen Schuldspruch zu fällen, wenn ihre Überzeugung "über jeden angemessenen Zweifel" (beyond a reasonable doubt) erhaben ist. Aber beide Kriterien sind zunächst qualitativ – es bleibt dem Gericht überlassen, welchen Zweifel es für angemessen beziehungsweise welche Wahrscheinlichkeit es für hinreichend nahe an der Sicherheit hält. Erst neuerdings versucht man immer häufiger, Aussagen dieser Art zu quantifizieren.
Spätere Generationen werden vielleicht das Gericht gar durch einen Computer ersetzen, dessen Expertensystem-Programm die Indizien bewertet und berechnet, mit welcher Sicherheit man den Beschuldigten zum Täter erklären kann. Bis dahin allerdings müssen sich die Juristen noch selbst mit Wahrscheinlichkeitstheorie herumschlagen.
Neue Bedeutung gewinnt dieses alte Problem unter anderem dadurch, daß zunehmend DNA-Profilanalysen als Beweismittel dienen. Diese molekularbiologische Technik ist noch relativ neu, und entsprechend umstritten ist, was genau man aus ihren Ergebnissen herleiten kann. Ein ähnlicher Streit hätte schon ausbrechen können, als der gewöhnliche Fingerabdruck zur Täteridentifikation eingeführt wurde, nur sind die Rechtsanwälte damals anscheinend nicht auf die Idee gekommen. Jedenfalls wird gegenwärtig ein solches Indiz nicht mehr mit Wahrscheinlichkeitsargumenten angefochten; zu etabliert ist die Überzeugung, aus der Übereinstimmung zweier Fingerabdrücke folge zwingend die Identität der Urheber. (Nicht zur Bekräftigung dieser Überzeugung, aber immerhin zum Finden von Übereinstimmungen haben modernste Bildverarbeitungsverfahren wesentliche Verbesserungen beigetragen; vergleiche Spektrum der Wissenschaft, Februar 1997, Seite 96.)
Der englische Journalist Robert A. J. Matthews, dessen Arbeiten zum anthropomurphischen Prinzip ich im September 1996 unter dieser Rubrik vorgestellt habe, hat nun ein viel traditionelleres Beweismittel wahrscheinlichkeitstheoretisch analysiert: das Geständnis. Zu Zeiten der Inquisition war es ein unbezweifelbarer und unentbehrlicher Schuldbeweis – selbst wenn es, wie meistens, unter der Folter abgepreßt wurde. Heutige aufgeklärte Rechtsstaaten verbieten jeden Zwang dazu beim Verhör, selbst "Verlocken" (Österreich) oder "verfängliche Fragen" (Schweiz). Auch deshalb neigt man allgemein dazu, ein Geständnis für voll zu nehmen; zumindest pflegt man zu glauben, daß die Wahrscheinlichkeit der Täterschaft nach einem Geständnis größer sei als zuvor.
Unter gewissen Umständen ist das jedoch falsch. Dieser sogenannte Trugschluß des Ermittlers ist eine der Überraschungen, die Matthews anzuführen hat.
Seine Überlegungen könnten beispielsweise in Terrorismusprozessen von Bedeutung sein. Untergrundkämpfer sind im allgemeinen darauf trainiert, Verhören standzuhalten; hingegen kommt es immer wieder vor, daß ein Unbeteiligter eine Tat gesteht, die er nicht begangen hat. Deshalb ist man skeptisch gegenüber Geständnissen, die unter psychischem Druck erlangt wurden – wenn nicht weitere stützende Indizien hinzutreten.
Der Trugschluß des neuen Nachbarn
Zentral für die Argumentation von Matthews ist der mathematische Begriff der bedingten Wahrscheinlichkeit. Angenommen, Ihre neuen Bekannten, die Müllers, erzählen Ihnen, daß sie zwei Kinder haben, und Sie haben gesehen, daß eines von ihnen ein Mädchen ist. Wie groß ist die Wahrscheinlichkeit, daß auch das andere Kind eines ist?
Nehmen wir der Einfachheit halber an, Jungen und Mädchen seien in der Bevölkerung gleich häufig. Dann würden die meisten Menschen spontan antworten, daß das andere Kind jeweils mit der Wahrscheinlichkeit 1/2 ein Junge oder ein Mädchen sei. Aber es gibt vier mögliche Verteilungen der Geschlechter: JJ, JM, MJ und MM, wobei J und M für Junge beziehungsweise Mädchen stehen und jeweils das ältere Kind zuerst genannt ist. Jede Kombination hat die gleiche Wahrscheinlichkeit für sich; das ist also 1/4. Drei von ihnen, nämlich JM, MJ und MM, erfüllen die Voraussetzung, daß es ein Mädchen gibt. Nur in einem dieser drei Fälle ist auch das andere Kind ein Mädchen. Unter der Voraussetzung, daß es wenigstens ein Mädchen gibt, ist also die Wahrscheinlichkeit für zwei Mädchen gleich 1/3.
Nehmen wir nun an, Sie wüßten über die Müllers etwas mehr, nämlich daß ihr älteres Kind ein Mädchen ist. Wie groß ist dann die Wahrscheinlichkeit, daß auch das jüngere ein Mädchen ist? Diesmal sind die möglichen Verteilungen der Geschlechter nur MJ und MM, also ist der gesuchte Wert 1/2.
Wer glaubt, die drei Fälle "zwei Jungen", "zwei Mädchen" und "gemischt" seien gleich wahrscheinlich, weil es auf den Unterschied zwischen JM und MJ nicht ankomme, werfe hinreichend oft zwei Münzen und notiere die Ergebnisse, wobei "Zahl" für einen Jungen und "Wappen" für ein Mädchen stehen möge. Es wird sich in annähernd der Hälfte (und nicht einem Drittel) aller Fälle die gemischte Kombination ergeben.
Bedingte Wahrscheinlichkeit ist die Wahrscheinlichkeit eines Ereignisses unter der Voraussetzung, daß ein anderes Ereignis mit Sicherheit eingetreten ist. Wie das Beispiel von Müllers Kindern zeigt, kommt es für die richtige Interpretation zuweilen entscheidend auf den Kontext an.
Betrachten wir noch ein Beispiel. Sie wissen von den Müllers nichts weiter, als daß sie zwei Kinder haben. Eines Tages sehen Sie die ganze Familie im Garten. Ein Kind ist offensichtlich ein Mädchen. Das andere wird teilweise vom Hund der Familie verdeckt, so daß Sie sein Geschlecht nicht erkennen können (Bild). Wie groß ist die Wahrscheinlichkeit, daß Müllers zwei Mädchen haben?
Auf den ersten Blick scheinen die Verhältnisse wie im ersten Beispiel zu liegen; demnach wäre der fragliche Wert gleich 1/3. Oder man interpretiert die Situation so: "Das Kind, das nicht mit dem Hund spielt, ist ein Mädchen." Es gibt also ein Unterscheidungsmerkmal, entsprechend dem Alter im zweiten Beispiel; demnach ist die gesuchte Wahrscheinlichkeit gleich 1/2. Herr und Frau Müller hinwiederum wissen, daß es ihr Sohn Klaus ist, der mit dem Hund spielt; für sie ist deshalb die Wahrscheinlichkeit, daß sie zwei Mädchen haben, gleich 0. Wer hat recht?
Die Frage sticht in ein begriffliches Wespennest. Die einfachste Interpretation des Wahrscheinlichkeitsbegriffs bezieht sich auf eine Prognose künftiger Ereignisse: Beim nächsten Wurf wird ein Würfel mit der Wahrscheinlichkeit 1/6 – zum Beispiel – die Vier zeigen. Bei den Fragen nach Müllers Kindern und nach der Täterschaft eines Verdächtigen geht es jedoch um Ereignisse, die längst stattgefunden haben. Die zugehörigen Wahrscheinlichkeitsaussagen reflektieren deshalb nicht eine objektive Realität, sondern im wesentlichen die lückenhafte Kenntnis dessen, der die Aussage macht; also ändert sich die Wahrscheinlichkeit mit dem Kenntnisstand. Diese Verwechslung von objektiver und subjektiver Wahrscheinlichkeit liegt auch dem berüchtigten Ziegenproblem aus der Fernsehshow der amerikanischen Kolumnistin Marilyn vos Savant zugrunde, bei dem sich sogar zahlreiche Wissenschaftler blamierten (Spektrum der Wissenschaft, November 1991, Seite 12).
Man muß also eine Beobachtung wie "eines von zwei Kindern ist ein Mädchen" interpretieren, als wäre sie das Ergebnis eines Zufallsexperiments, eine Stichprobe aus einer großen Grundgesamtheit. Besteht diese aus zahlreichen Familien mit zwei Kindern, von denen jedes ab und zu mit dem Hund spielt? Oder nur aus solchen, bei denen stets nur eines der beiden Kinder mit dem Hund spielt? Oder nur aus Familie Müller, in welchem Falle die Wahrscheinlichkeitsrechnung ohnehin unangebracht ist?
Es hilft auch nichts, wenn man einfach die Augen vor dem Kind verschließt, das eindeutig ein Mädchen ist, und argumentiert: "Unabhängig davon, welches Geschlecht das eine Kind hat, ist die Wahrscheinlichkeit dafür, daß das andere ein Mädchen ist, gleich 1/2." Denn wenn beide Kinder Mädchen sind, ist die Bezeichnung "das andere" mehrdeutig – es sei denn, ich gebe an, auf welches Kind ich mich beziehe ("das ältere" oder "das mit dem Hund"). Durch diese Angabe ändert sich die bedingte Wahrscheinlichkeit. Das muß auch so sein, denn die Aussage "das ältere Kind ist ein Mädchen" enthält mehr Information als "mindestens eines der Kinder ist ein Mädchen": Aus der ersten folgt die zweite, aber nicht aus der zweiten die erste.
Der Trugschluß des Anklägers
Es ist von jeher ein beliebter Juristentrick, die mathematische Unkenntnis eines Gerichts für das eigene Plädoyer auszunutzen. Ein Beispiel ist der sogenannte Trugschluß des Anklägers – den die Gerichte allerdings mittlerweile durchschauen – bei der DNA-Profilanalyse. Dieses Verfahren, das Alec J. Jeffreys von der Universität Leicester (England) 1985 entwickelt hat, beruht auf sogenannten VNTR-Regionen (variable number of tandem repeat regions) im menschlichen Erbgut: Abschnitten des DNA-Moleküls, in denen sich eine bestimmte Sequenz sehr oft wiederholt. Allgemein glaubt man, daß VNTR-Sequenzen ein Individuum eindeutig identifizierten.
Zur Anwendung vor Gericht untersuchen die Wissenschaftler mit Techniken der Molekularbiologie zwei DNA-Proben; eine beispielsweise aus Hautfetzen, die ein Überfallener dem – noch unbekannten – Gewalttäter abgekratzt hat, und eine weitere von einem Verdächtigen. Stimmen beide in hinreichend vielen verschiedenen VNTR-Regionen überein, sollte das ein schlagender statistischer Beweis dafür sein, daß sie von derselben Person stammen.
Der Trugschluß des Anklägers besteht in der – vorsätzlichen – Verwechslung zweier verschiedener Wahrscheinlichkeiten. Die aus dem Ergebnis der Analyse zu errechnende Übereinstimmungswahrscheinlichkeit beantwortet die Frage: "Wie wahrscheinlich ist es, daß die DNA-Proben übereinstimmen, unter der Voraussetzung, daß der Angeklagte unschuldig ist?" Aber die für das Gericht entscheidende Frage ist: "Wie wahrscheinlich ist es, daß der Angeklagte unschuldig ist, unter der Annahme, daß die DNA-Proben zusammenpassen?"
Nehmen wir an, ein Labor finde eine Übereinstimmung und berechne die Wahrscheinlichkeit dafür, daß diese durch schieren Zufall zustande kommt, mit eins zu einer Million. Unterstellen wir weiter, daß diese Berechnung korrekt sei (vergleiche jedoch Spektrum der Wissenschaft, Juli 1990, Seite 106), so klingt das zunächst wie ein unumstößlicher Schuldbeweis. Es sagt aber nichts weiter, als daß man unter zehn Millionen Menschen zehn mit einer solchen Zufallsübereinstimmung findet. Wenn die Polizei also sämtliche Einwohner von New York und Umgebung durchtesten ließe, würde sie ungefähr zehn Verdächtige finden, das heißt, eine Schuldwahrscheinlichkeit von zehn Prozent für jeden von ihnen – keine gute Grundlage für eine Verurteilung (vergleiche auch Spektrum der Wissenschaft, September 1990, Seite 14). Anders ist es, wenn man als Grundgesamtheit die wesentlich kleinere Anzahl an Menschen nimmt, die überhaupt als Täter in Betracht kommen können.
Die Anwendung bedingter Wahrscheinlichkeiten in solchen Fällen wird durch einen Satz bestimmt, der dem Engländer Thomas Bayes (1702 bis 1761) zugeschrieben wird. Es seien A und C zwei Ereignisse, die mit der Wahrscheinlichkeit P(A) beziehungsweise P(C) eintreten. Wir schreiben P(AC) (gesprochen: "P von A gegeben C") für die Wahrscheinlichkeit, daß A eintritt, unter der Voraussetzung, daß C mit Sicherheit eingetreten ist. Mit A&C wird das Ereignis "sowohl A als auch C sind eingetreten" bezeichnet. Der Bayessche Satz besagt dann
P(AC)=P(A&C)/P(C).
Angewandt auf Familie Müller sei beispielsweise C die Beobachtung "wenigstens ein Kind ist ein Mädchen", und A bedeute "das andere Kind ist ein Mädchen"; dann schreiben sich die Aussagen des ersten Beispiels
P(C)=3/4
P(A&C)=1/4,
denn A&C ist das Ereignis MM: "Beide Kinder sind Mädchen". Nach dem Bayesschen Satz berechnet sich die Wahrscheinlichkeit dafür, daß auch das andere Kind ein Mädchen ist, unter der Voraussetzung, daß wenigstens ein Kind ein Mädchen ist, zu (1/4)/(3/4)=1/3, was unsere Argumentation bestätigt. Im zweiten Beispiel gibt der Bayessche Satz entsprechend die Antwort 1/2.
Bei der Anwendung auf Geständnisse nennt Matthews A das Ereignis "der Angeklagte ist schuldig" und C "er hat gestanden". Wie beim Bayesschen Schließen üblich, bezeichnet er mit P(A) die A-priori-Wahrscheinlichkeit dafür, daß der Angeklagte schuldig ist, das heißt diejenige aufgrund der Beweislage vor dem Geständnis. Schließlich sei A' die Negation des Ereignisses A, also das Ereignis "der Angeklagte ist unschuldig".
Nun leitet Matthews aus dem Satz von Bayes die folgende Formel her: P(AC)= p/(p+r(1-p)), wobei r und p Abkürzungen sind: r=P(CA')/P(CA), p=P(A). (Einzelheiten stehen im Kasten auf dieser Seite.) Die Zahl r nennen wir den Geständnisquotienten; denn P(CA') ist die Wahrscheinlichkeit dafür, daß eine unschuldige Person sich eines Verbrechens bezichtigt, und P(CA), daß eine schuldige Person gesteht. Der Geständnisquotient ist also kleiner als 1, wenn die übliche Annahme zutrifft, daß ein Unschuldiger mit geringerer Wahrscheinlichkeit gesteht als der Schuldige.
Wenn ein Geständnis die Wahrscheinlichkeit der Schuld erhöhen soll, dann muß P(AC) größer als P(A)=p sein. Also muß p/(p+r(1-p))>p sein, was sich nach einigen einfachen Umformungen als äquivalent zu der Bedingung r<1 erweist. Also erhöht ein Geständnis dann und nur dann die Schuldwahrscheinlichkeit, wenn die genannte Annahme r<1 zutrifft.
Daraus folgt indes auch, daß ein Geständnis die Schuldwahrscheinlichkeit verringern kann, nämlich dann, wenn unter den gegebenen Umständen eine unschuldige Person mit größerer Wahrscheinlichkeit gesteht als eine schuldige. Nun neigt ein Mensch um so eher zu einem falschen Geständnis, je beeinflußbarer oder nachgiebiger er ist. Diese Eigenschaften wird man gerade bei hartgesottenen Terroristen oder Berufsverbrechern, die sich ihr Verhalten beim Verhör bis ins Detail überlegt oder gar eingeübt haben, kaum finden.
Es gibt weitere Ergebnisse der Bayesschen Analyse, die dem gesunden Menschenverstand zuwider laufen. Kommt etwa zu einem ersten Indiz X später ein weiteres Y hinzu, so wird das Gericht in aller Regel annehmen, daß sich die Wahrscheinlichkeit für die Schuld des Angeklagten nun erhöht habe. Das gilt aber nur, wenn die Wahrscheinlichkeit für Y unter der Voraussetzung, daß X vorliegt und der Angeklagte schuldig ist, größer ist als diejenige für Y unter der Voraussetzung, daß X vorliegt und der Angeklagte unschuldig ist.
Wenn die Argumentation des Staatsanwalts von einem Geständnis abhängt, können zwei sehr unterschiedliche Dinge passieren. Im einen Falle sei X das Geständnis und Y ein Beweis, der daraufhin gefunden wird – beispielsweise eine Leiche an dem Ort, den der Angeklagte bezeichnet hat. Da ein Unschuldiger solche Informationen kaum geben kann, ergibt die Bayessche Analyse, daß die Schuldwahrscheinlichkeit sich erhöht hat.
Andererseits könnte X ein Leichenfund sein und Y ein nachfolgendes Geständnis. In diesem Falle hängt der Beweis, den der Leichenfund liefert, nicht von dem Geständnis ab, kann es also auch nicht bestätigen.
Es wäre unrealistisch zu fordern, daß jeder potentielle Geschworene einen Kurs in Bayesschem Schließen besuchen (und bestehen) muß, aber es wäre vernünftig, wenn Richter einige einfache Prinzipien in ihre Instruktionen an die Jury einfließen lassen würden. Das gilt auch für die DNA-Profilanalyse. Eine kurze Beschäftigung mit dem Trugschluß des Vernehmers könnte irreführenden Plädoyers auf elegante Weise den Boden entziehen.
Literaturhinweise
- How right can you be? Von Robert Matthews in: New Scientist, Heft 2072, Seiten 28 bis 33, 8. März 1997.
Kasten: Die Herleitung der Formel von Robert Matthews
Nach dem Bayesschen Satz gilt
Aus: Spektrum der Wissenschaft 7 / 1997, Seite 8
© Spektrum der Wissenschaft Verlagsgesellschaft mbH
Schreiben Sie uns!
Beitrag schreiben