Das Einmaleins des Miteinander
Computerexperimente zeigen, wie sich selbst unter den äußerst harten Bedingungen des Darwinschen Daseinskampfes Zusammenarbeit gegen Ausbeutung durchsetzen kann.
Geben und Nehmen beherrschen weitgehend unser Zusammenle- ben. Nicht nur auf dem Markt und in der Arbeitswelt, sondern schon im einfachsten Haushalt findet ein unablässiger Austausch von Gütern und Dienstleistungen statt. Diese – oft unbewußten – Gegengeschäfte faszinieren in zunehmenden Maß die Wirtschaftswissenschaftler, aber auch die Vertreter der Verhaltensforschung, die eine Vielzahl ähnlicher Beziehungen in Gruppen von Schimpansen und anderen Primaten nachgewiesen haben.
Schon dem Naturforscher Charles Darwin (1809 bis 1882) war die Bedeutung der Kooperation in der menschlichen Stammesgeschichte klar gewesen. In seinem Buch "Die Abstammung des Menschen" schrieb er: "Die geringe körperliche Kraft des Menschen, seine geringe Schnelligkeit, der Mangel an natürlichen Waffen etc. werden mehr als ausgeglichen... durch seine sozialen Eigenschaften, welche ihn dazu führten, seinen Mitmenschen zu helfen und Hilfe von ihnen zu empfangen" (Bild 1).
Offenbar ist das meilenweit entfernt von der Vorstellung des englischen Philosophen Thomas Hobbes (1588 bis 1679), der den Menschen als Wilden und sein Leben als "einsam, arm, böse, brutal und kurz" charakterisierte. Dennoch haben einige von Darwins ersten Anhängern die grausamen Aspekte des "Kampfes ums Dasein" so sehr in den Vordergrund gestellt, daß sich der russische Prinz Pjotr Kropotkin (1842 bis 1921) genötigt sah, ihnen durch ein Buch entgegenzutreten. In "Gegenseitige Hilfe in der Tier- und Menschenwelt", das die Londoner "Times" bei seinem Erscheinen 1902 als "möglicherweise das wichtigste Buch des Jahres" pries, zeichnet er ein eindrucksvolles Bild des Zusammenhalts innerhalb von sibirischen Hirtenvölkern, polynesischen Eingeborenenstämmen und mittelalterlichen Gilden. Berühmt wurde Kropotkin als Chefideologe des Anarchismus, aber seine Beschäftigung mit der Naturwissenschaft war mehr als ein bloßes Hobby: Wer den Staat abschaffen will, muß brennend an dem Nachweis interessiert sein, daß die Kooperation den Menschen nicht von oben mit eiserner Faust aufgezwungen werden muß, sondern sich unter natürlichen Bedingungen von selbst entfaltet.
In gewisser Hinsicht sind Kropotkins Gedanken eindrucksvoller bestätigt worden, als er je hoffen konnte. Zahlreiche anthropologische und primatologische Untersuchungen belegen die Bedeutung der gegenseitigen Hilfeleistung innerhalb der frühen hominiden Gemeinschaften. Desgleichen sind die moderneren Lehrbücher über Verhaltensforschung voll von Beispielen der Kooperation im Tierreich: vom Entlausen über das Füttern, Warnen und Lehren bis zum Beistand im Kampf und zur gemeinsamen Jagd (Bild 5). In der Ökologie wird symbiotischen Gemeinschaften zunehmend grundlegende Bedeutung zugesprochen. Biologen entdecken Kooperation auf der Ebene von Zellen, Organellen und sogar präbiotischen Molekülen.
Zugleich aber schien die allgegenwärtige altruistische Zusammenarbeit umso paradoxer, je eingehender man sie studierte. Der Idealist Kropotkin hatte ihre Anfälligkeit gegen Ausbeuter nie richtig wahrgenommen. Was hindert den Angehörigen einer altruistischen Gemeinschaft daran, Parasit zu werden? Warum sollte jemand in ein gemeinsames Unternehmen investieren, statt die Leistung der anderen für sich auszunutzen? Schließlich prämiert die natürliche Auslese nichts anderes als den individuellen Fortpflanzungserfolg. Wie können sich dann Verhaltensweisen entwickeln, die altruistisch sind in dem Sinne, daß sie den Erfolg anderer auf Kosten der eigenen Nachkommen fördern?
Es gibt im wesentlichen zwei deutlich verschiedene, einander nicht ausschließende Antworten auf diese Frage. Die sogenannte Verwandtenselektion (siehe auch "Verwandtenerkennung bei Tieren und Pflanzen" von David W. Pfennig und Paul W. Sherman in dieser Ausgabe, Seite 60) beruht auf dem Mechanismus der Vererbung: Ein Gen, das den Fortpflanzungserfolg eines nahen Verwandten erhöht, fördert damit die Fortpflanzung einer Kopie seiner selbst. In diesem Sinne belohnt eine gute Tat sich selbst – solange die Sache in der Familie bleibt.
Eine Leistung für einen Nicht-Verwandten dagegen zahlt sich erst aus, wenn sie erwidert wird. Gegenseitige Hilfe – definiert als der Austausch altruistischer Handlungen, deren Gesamtnutzen für jeden der Beteiligten die Gesamtkosten überwiegt – bewirkt einen Nettogewinn und ist mithin im Prinzip ökonomisch vorteilhaft. Doch da der Gewinn nicht so unmittelbar dem Urheber der Wohltat zugute kommt wie bei der Verwandtenselektion, stehen Betrügern viel mehr Möglichkeiten offen.
Zwei Geschäftspartner können einen beiderseits einträglichen Handel abschließen; aber jeder könnte noch mehr davon haben, wenn er den eigenen Beitrag nicht leistet. In modernen Gesellschaften macht ein riesiger Aufwand an Vorschriften und Vollzugsorganen die Verlockung zum Betrug – meistens – widerstehlich. Aber wie kann wechselseitiger Altruismus funktionieren ohne die autoritären Institutionen, die Kropotkins Anarchisten so von Herzen verachteten?
Das Gefangenendilemma
Um das Problem deutlich herauszuarbeiten, griff der amerikanische Soziobiologe Robert Trivers von der Universität von Kalifornien in Santa Cruz (bezeichnenderweise ein ehemaliger Anwalt) auf eine extrem einfache, idealisierte Situation zurück. In der Spieltheorie ist sie seit den frühen fünfziger Jahren als Gefangenendilemma bekannt. In der Urform werden zwei gefangene Verdächtige getrennt voneinander gefragt, ob der jeweils andere an dem Verbrechen beteiligt war; wer bereit ist, seinen Komplizen zu belasten, bekommt als Lohn dafür die Vorteile eines Kronzeugen in Aussicht gestellt.
Die Situation ist längst nicht so exotisch, wie das Beispiel suggeriert, sondern elementar und alltäglich. Entscheidend ist, daß beide Beteiligten – jeder für sich – zu entscheiden haben, ob sie zusammenhalten (im Beispiel: schweigen) wollen oder nicht. Wenn sie kooperieren, erhalten beide eine Belohnung von (zum Beispiel) je drei Punkten. Wenn beide die Zusammenarbeit verweigern, bleibt ihnen nur jeweils ein Punkt. Aber wenn ein Spieler kooperiert und der andere nicht, heimst der erfolgreiche Betrüger fünf Punkte ein, während sein Kontrahent leer ausgeht (Bild 2).
Soll ich kooperieren? Wenn der Gegenspieler mich hintergeht, erhalte ich null Punkte. Offensichtlich hätte ich in diesem Fall besser daran getan, ebenfalls die Kooperation zu verweigern. Aber selbst wenn mein Komplize kooperiert, sollte ich ihn betrügen, denn dann erhalte ich fünf Punkte statt lediglich drei. Wie auch immer der andere Spieler sich entscheidet, Betrügen ist für mich vorteilhafter. Also betrüge ich. Aber mein Gegenspieler befindet sich in genau derselben Lage und zieht dieselben Schlüsse daraus. Also betrügen wir beide und bekommen nur je einen Punkt. Warum haben wir eigentlich nicht kooperiert?
Dieses Spiel spiegelt einen Konflikt zwischen Eigenwohl und Gemeinwohl wider, der in der einen oder anderen Form so gut wie jede Zusammenarbeit bedroht. Auf die genauen Punktzahlen (die sogenannten Auszahlungswerte) kommt es dabei nicht an, sondern nur auf die Rangfolge der möglichen Ergebnisse, die man mit suggestiven Namen zu belegen pflegt: Die "Belohnung" für beiderseitige Zusammenarbeit ist höher als die "Bestrafung" für beiderseitiges Betrügen; einseitiges Betrügen bringt aber noch mehr (das ist die "Verlockung"), wogegen der ausgebeutete Partner am wenigsten erhält (das ist sein "Schaden"). Also ist, gleichgültig, wie sich der andere Spieler entscheidet, Betrügen stets die beste Option. Daraus folgt unausweichlich beiderseitiges Betrügen.
Die meisten Menschen glauben zunächst, es müsse etwas falsch sein an dieser Überlegung. In psychologischen Experimenten kooperieren sie dementsprechend häufig, motiviert durch Gefühle der Solidarität oder der Sympathie. Auch im wirklichen Geschäftsleben kommen Betrug und Übervorteilung relativ selten vor, wobei gesellschaftlicher Druck wohl eine wesentliche Rolle spielt. Ähnliches gilt für manche Tiergemeinschaften. Aber auf solche Dinge sollte es nicht ankommen in einer darwinistischen Welt, in der jede Form der Auszahlung – ob sie nun in Kalorien besteht, in Geschlechtspartnern oder in größerer Sicherheit vor Raubfeinden – letztlich in eine einheitliche Währung umgewechselt wird: in Nachkommen.
Virtuelle Turniere
Stellen wir uns in einem Gedankenexperiment eine Bevölkerung vor, die aus Robotern besteht. Jeder dieser künstlichen Spieler ist auf eine Strategie programmiert: Entweder wählt er stets Kooperation oder stets Verweigerung. (Hier und im folgenden soll – in Ermangelung eines besseren Wortes – "verweigern" das Gegenteil von kooperieren bedeuten.) Alle Roboter treten zu einem Turnier an; jeder spielt gegen jeden eine Runde des Gefangenendilemmas. Die Punktzahlen aller Spiele werden zusammengezählt. Das Endergebnis für jeden einzelnen hängt also von den Strategien seiner Gegenspieler ab und damit von der Zusammensetzung der Bevölkerung. Aber Verweigern bringt in jedem Fall mehr Punkte als Kooperieren.
Nach dem Wettkampf vermehren sich die Spieler: Jeder hat soviele Nachkommen der gleichen Art – Kooperatoren oder Verweigerer –, wie er im Turnier Punkte erzielt hat. Die Angehörigen der nächsten Generation treten ihrerseits gegeneinander zum Turnier an, ihre Nachkommenschaft bemißt sich nach ihrem Erfolg, und so fort.
In dieser Karikatur einer biologischen Population, in der Strategien erblich sind und Auszahlung Fortpflanzungserfolg bedeutet, nimmt der Anteil der Verweigerer von jeder Generation zur nächsten unweigerlich zu: Kooperation stirbt aus.
Es gibt mehrere Auswege aus dem Dilemma. Der nächstliegende beruht darauf, daß zwei Individuen meistens nicht nur einmal miteinander zu tun haben. Ich werde es mir zweimal überlegen, meinen Gegenspieler zu betrügen, wenn der mir das bei nächster Gelegenheit heimzahlen kann – und wenn so eine Gelegenheit höchstwahrscheinlich kommen wird. Nehmen wir etwa an, daß es mit 95prozentiger Wahrscheinlichkeit zu einer weiteren Spielrunde kommt. Dann wird das Spiel im Durchschnitt 20 Runden dauern, aber man kann nie im voraus wissen, wann es zu Ende geht.
Eine Strategie für das wiederholte Spiel ist nun wieder ein Programm, das dem Spieler vorschreibt, was in jeder Runde zu tun ist. Im Gegensatz zur vorigen Situation kann jedoch die Entscheidung davon abhängen, was in den bisherigen Runden geschehen ist.
Unter diesen Bedingungen ist "Verweigere stets" nicht mehr in jedem Falle optimal. Mehr noch: Es gibt für das iterierte Gefangenendilemma überhaupt keine Strategie, die für jeden möglichen Gegner die beste Antwort lieferte. Wenn mein Gegenspieler beispielsweise unter allen Umständen kooperiert, so bringt es mir am meisten, wenn ich stets verweigere. Aber wenn mein Gegenspieler beschließt, zu kooperieren, bis ich ihn das erste Mal hereinzulegen versuche, und von da an die Kooperation einstellt (eine Strategie namens "Grimm"), dann sollte ich unsere Partnerschaft auf keinen Fall gefährden. Denn die Verlockung, mir in einer Runde durch Verweigern 5 statt 3 Punkte unter den Nagel zu reißen, kommt mich teuer zu stehen, da ich in jeder weiteren Runde höchstens einen Punkt einheimsen kann. Was sich unter gewissen Umständen bewährt, kann also bei anderen Partnern völlig versagen. (Die naheliegende Idee, in jeder Runde zu kooperieren mit Ausnahme der letzten, weil dann der Gegner sich nicht mehr revanchieren kann, funktioniert nicht; man weiß nämlich nie, ob die laufende Runde die letzte ist. Eine verwandte Situation, bei der die Zahl der Runden vorab feststeht, ist in Spektrum der Wissenschaft, Februar 1991, Seite 19 beschrieben.)
Wie du mir, so ich dir
In den späten siebziger Jahren veranstaltete der Politologe Robert Axelrod von der University of Michigan in Ann Arbor mehrere Turniere mit dem iterierten Gefangenendilemma. Die Teilnehmer waren Programme, die von Fachkollegen eingereicht worden waren. Es gab keine obere Schranke für ihre Komplexität, und einige von ihnen waren tatsächlich sehr raffiniert. Doch stellte sich heraus, daß die einfachste Lösung gewann. Das war Tit for Tat ("Wie du mir, so ich dir"), eine Strategie, die im ersten Spielzug kooperiert und dann immer den vorigen Zug des anderen Spielers nachmacht. Eingesandt hatte sie der kanadische Spieltheoretiker Anatol Rapoport. (Douglas R. Hofstadter hat in "Metamagikum", Spektrum der Wissenschaft, August 1983, Seite 8, Turnier und Ergebnis ausführlich beschrieben.)
Ein Tit-for-Tat-Spieler erwirbt in keinem Spiel mehr Punkte als sein jeweiliger Gegner; er hat ja zu keinem Zeitpunkt die Nase vorn, denn er ist ja nie der erste, der die Kooperation aufkündigt, und schließt sich postwendend an, wenn der andere Spieler zur Zusammenarbeit zurückkehrt. Erstaunlicherweise läßt sich trotzdem mit Tit for Tat das Turnier gewinnen. Das ist deshalb möglich, weil das Gefangenendilemma kein Nullsummenspiel ist: Man kann Punkte erwerben, ohne dem Mitspieler gleich viele wegzunehmen.
Die Tit-for-Tat-Regel pflegt durch ihre Transparenz den Spielpartner gewissermaßen zu überzeugen, daß es sich auszahlt, kooperativ zu sein. In Axelrods Turnieren veranlaßte das Programm viele Gegenspieler, die untereinander nur selten kooperierten, zu zahlreichen beiderseits einträglichen Runden der Zusammenarbeit.
Als Sieger des ersten Durchgangs war Tit for Tat in der nächsten Generation häufiger vertreten als seine Rivalen. Außerdem hatten jene, die mit ihm kooperiert hatten, mehr Nachkommen als andere. Also änderte sich die Zusammensetzung der Bevölkerung zugunsten von Tit for Tat. So schuf sich dieses Programm von Generation zu Generation eine günstigere Umgebung – ganz im Gegensatz zu jenen Mitbewerbern, die erbarmungslos gutmütige Trottel ausbeuteten und schließlich niemanden mehr zum Ausbeuten hatten. In Axelrods Simulationen setzte sich eine Handvoll von Programmen durch, die alle miteinander kooperierten.
Unberechenbare Gegner
Wie allgemeingültig ist dieses Ergebnis? Drei Einwände drängen sich auf. Erstens sind die von Axelrods Kollegen vorgeschlagenen Strategien kaum repräsentativ für einfache biologische Gemeinschaften. Zweitens sollte man Mutationen in das System einführen, um die Menge aller möglichen Strategien auszutesten. Und drittens: Im Gegensatz zu der – fehlerfreien – Computersimulation sind in lebensechten Situationen alle Entscheidungen störanfällig. Denken wir nur daran, wie leicht man unabsichtlich ins Fettnäpfchen tritt oder seinen aufgestauten Zorn an Unbeteiligten abreagiert.
Die Interaktion zweier Tit-for-Tat-Spieler ist in besonders hohem Maße fehleranfällig. Ein falscher Zug, und in der Folge betrügen beide Partner einander abwechselnd. Ein weiterer Fehler kann sowohl die Kooperation wiederherstellen als auch völlig zerstören. Die durchschnittliche Auszahlung sinkt drastisch ab. Offenbar sollten unsere Spieler gelegentlich verzeihen können – aber nicht nach einem vorhersehbarem Muster, denn das ließe sich ausbeuten.
Also muß man den Zufall in die Strategien einbauen. Das ist realistisch; denn wir handeln im allgemeinen nicht nach präzisen Regeln, sondern lassen uns durch zahllose unvorhersehbare Faktoren beeinflussen. An die Stelle eines Programms, das auf gleiche Aktionen seines Gegners immer gleich reagiert, tritt also eines, das seine Entscheidung noch von einer Art Münzwurf abhängig macht. Denkbar wäre beispielsweise eine Variante von Tit for Tat mit einer Fehlerrate von einem Prozent. Sie würde in 99 Prozent aller Fälle auf Kooperation mit Kooperation antworten, in einem Prozent jedoch mit Verweigerung.
Wählen wir nun hundert solcher Zufallstrategien beliebig aus. Jede ist durch ein Paar von Wahrscheinlichkeiten definiert (und einen Anfangszug, der aber wenig Einfluß hat, wenn das Spiel oft wiederholt wird). Anfangs sind in der Population alle diese Strategien gleich häufig vertreten. Lassen wir die Spieler zu einem Turnier der beschriebenen Art antreten. Wie wird sich die Population über zahlreiche Generationen hinweg entwickeln?
Zunächst geht es den Programmen am besten, die am wenigsten kooperieren; denn sie können zu ihrem großen Vorteil diejenigen ausbeuten, die selbst nach schlechten Erfahrungen noch mit hoher Wahrscheinlichkeit kooperieren (die sogenannten Gimpel). Nach hundert Generationen ist von den Gimpeln freilich nichts mehr zu sehen. Fast jede Wechselwirkung ist jetzt eine beiderseitige Verweigerung.
Das ist oft auch schon das enttäuschende Endergebnis der Computersimulation – mit einer wichtigen Ausnahme. Wenn sich in der ursprünglichen Stichprobe ein Tit-for-Tat-ähnliches Programm befunden hat, sieht zwar die Anfangsphase genauso aus, denn da Tit-for-Tat-Spieler Gimpel nicht hereinlegen, ist ihre Auszahlung anfangs geringer als die der schamlosen Ausbeuter. Aber sobald die Gimpel von der Bildfläche verschwunden sind, ändert sich die Lage. Die Bevölkerung besteht jetzt größtenteils aus Verweigerern, die einander ununterbrochen bestrafen. Wenn sie auf Tit-for-Tat-Spieler stoßen, schneiden sie etwas besser ab – aber nur um eine Spur, denn ihre Gegner wissen sich ja zu wehren. Wenn aber zwei Exemplare von Tit for Tat aufeinandertreffen, geht es ihnen viel besser als den Verweigerern, trotz gelegentlicher Mißverständnisse. Deshalb wird die Minderheit der Tit-for-Tat-ähnlichen Spieler wachsen – zunächst sehr langsam, doch mit zunehmendem Schwung. Mit jedem zusätzlichen Gleichgesinnten nimmt ihr Vorteil zu – ganz im Gegensatz zu den Ausbeutern, die ja auch ihresgleichen nur schaden. Das Blatt hat sich gewendet: Jetzt werden die Verweigerer verdrängt.
Diesen Prozeß haben Axelrod und der britische Biologe William D. Hamilton bereits 1980 in einer bedeutenden Arbeit beschrieben. Aber unsere Computersimulationen zeigen noch mehr: Die Tit-for-Tat-Spieler, die durch ihre Vergeltungsschläge die Verweigerer eliminieren, sind letztendlich nicht die Nutznießer. Nachdem Tit for Tat seine Schuldigkeit getan hat, richtet sich seine so nutzbringende Strenge gegen es selbst, und es wird deshalb durch eine tolerantere Variante verdrängt, die wir "nachsichtiges Tit for Tat" (generous Tit for Tat) genannt haben (Spektrum der Wissenschaft, Mai 1992, Seite 30).
Diese Schwester von Tit for Tat kooperiert mit fast 100prozentiger Sicherheit nach einem kooperativen Zug und mit ungefähr 33prozentiger Wahrscheinlichkeit nach einem Verweigerungsakt des Gegenspielers. Sie verzeiht also im Durchschnitt jedes dritte gegnerische Foul. Hinter dem Zahlenwert 33 Prozent steckt nichts Besonderes; er hängt von den Auszahlungswerten ab und entspricht der kleinsten Kombination zweier Übel: Wer öfter verzeiht, kann ausgebeutet werden, wer seltener verzeiht, bestraft sich selbst durch übertriebene Strenge.
Bemerkenswert ist, daß sich nachsichtiges Tit for Tat aus eigener Kraft nie durchsetzen kann. Es bedarf einer so gnadenlosen Strategie wie Tit for Tat, um die Wende einzuleiten und den Boden für die Zusammenarbeit zu bereiten.
Pavlov: die Strategie, bei welcher der Erfolg zählt
Wieder müssen wir uns fragen: Wie robust sind diese Aussagen? Bis jetzt haben wir nur sehr einfältige Programme zum Turnier zugelassen – solche, die den vorhergehenden Zug des anderen berücksichtigen, doch nicht den eigenen. Nun ist Einfachheit an sich kein Nachteil; immerhin hat Tit for Tat die Axelrod-Turniere gegen weitaus raffinierter erdachte Rivalen gewonnen. Aber es ist naheliegend, daß ein Spieler, der sich an den letzten Zug des Gegners erinnert, auch den eigenen nicht vergißt. Zahlt es sich aus, ihn zu berücksichtigen?
In jeder Runde kann es zu vier möglichen Resultaten kommen: Belohnung, Versuchung, Bestrafung und Schaden. Wenn dies für die nächste Runde berücksichtigt werden soll, muß innerhalb einer Strategie festgelegt werden, was in jedem dieser Fälle zu tun ist. Vier Fälle und für jeden zwei Alternativen – kooperieren oder betrügen: Das ergibt insgesamt 16 deterministische und eine sehr große, unübersichtliche Schar an zufallsbestimmten Strategien (Bild 3). Wir können mit Hilfe eines Computers die erfolgreichsten ausfindig machen, indem wir alle hundert Generationen eine kleine Minderheit mit einer neuen, zufällig ausgewählten Strategie einführen und überprüfen, ob sie sich bewährt. Wenn wir nur lange genug warten, werden diese Mutanten einen großen Bereich aller Zufallsstrategien austesten.
Wir haben viele solcher Mutations-Selektions-Läufe über Millionen von Generationen verfolgt, nicht weil die Kooperation so lange brauchen würde, um sich zu etablieren, sondern weil wir dadurch statistisch verläßliche Schlußfolgerungen erhielten, die Hunderttausende von Mutationen in die Bewertung mit einbeziehen.
Trotz der Verschiedenartigkeit der einzelnen Programmläufe fanden wir einige einfache und klare Ergebnisse. Vielleicht das überraschendste war das Auftreten eines Musters, das die Biologen Stephen J. Gould und Niles Eldredge für die biologische Evolution postuliert und mit dem Begriff punctuated equilibrium belegt haben: Lange Phasen, in denen sich nahezu nichts verändert, werden unterbrochen durch seltene, abrupte Übergänge. Unsere Populationen verharrten lange Zeit im Zustand der allgemeinen Kooperation oder der allgemeinen Verweigerung; durch Mutationen ausgelöst, kann dieser Zustand binnen weniger Generationen ins Gegenteil umschlagen (Bild 4).
Zweitens gibt es einen deutlich wahrnehmbaren Trend zur allgemeinen Kooperation. Je mehr Zeit vergeht, desto wahrscheinlicher wird sie. Aber die Idylle ist stets vom plötzlichen Zusammenbruch bedroht.
Die Strategie, die sich auf die Dauer durchsetzt, ist manchmal das nachsichtige Tit for Tat; aber weitaus häufiger etabliert sich eine ganz andere, welche die Mathematiker David P. Kraines von der Duke-Universität in Durham (North Carolina) und Vivian Kraines vom Meredith College in Raleigh (North Carolina) Pavlov genannt haben. Ein Pavlov-Spieler kooperiert, wenn er in der letzten Runde eine Belohnung oder eine Bestrafung erfahren hat, sonst nicht.
Zunächst wirkt diese Regel eigenartig. Sie besagt, daß man genau dann verweigern soll, wenn der gegnerische Zug anders war als der eigene. Doch bei näherem Hinsehen erweist sich das als sinnvoll. Wenn ich eine Belohnung für gemeinsame Zusammenarbeit erhalten habe, wiederhole ich meinen kooperativen Zug; wenn ich eine Bestrafung bekommen habe, weil wir beide einander betrügen wollten, versuche ich es nun mit der Zusammenarbeit. Nach einer Verlockung (wenn ich also den anderen erfolgreich hereingelegt habe) probiere ich das gleiche noch einmal; wenn ich den Schaden habe, also übertölpelt worden bin, kooperiere ich nicht wieder. Anders ausgedrückt: Ich behalte mein Verhalten bei, wenn es eine hohe Auszahlung (einen Gewinn) gebracht hat, aber nicht, wenn die Auszahlung niedrig war (ich also verloren habe). Im englischen Telegrammstil: Win-stay, lose-shift.
Diese einfachste aller Lernregeln scheint in vielen Situationen wirksam zu sein. In der Tierpsychologie gilt als selbstverständlich, daß die Bereitschaft einer Ratte, eine bestimmte Handlung zu wiederholen, bei Belohnung zu- und bei Bestrafung abnimmt. Alle Tierdressuren beruhen auf diesem Prinzip von Zuckerbrot und Peitsche. Der auf das Glockenläuten konditionierte Hund des russischen Physiologen Iwan P. Pawlow (1849 bis 1936), von dem die Strategie den Namen hat, behielt das Verhalten (Speicheln) bei, das beim letzten Mal von Erfolg (Futter) gekrönt gewesen war. Und bei dem Versuch, unsere Kinder zu erziehen, verwenden wir ja auch Belohnungen und Strafen.
Sowohl Pavlov als auch Tit for Tat enthalten die Anweisung, auf einen Verweigerungsakt des Partners hin gleichsam zurückzuschlagen, Vergeltung zu üben durch eigenes Verweigern. Im Gegensatz zu einer Tit-for-Tat-Population löst allerdings in einer Gemeinschaft von Pavlov-Spielern ein einzelnes Mißverständnis nicht gleich eine ewige Fehde aus. Ein Fehltritt hat in der nächsten Runde beiderseitiges Verweigern zur Folge; dann aber kehren beide zur Zusammenarbeit zurück. Wenn ein Pavlov-Spieler freilich bemerkt, daß sein Gegenspieler nicht zurückschlägt, beutet er ihn konsequent aus. Auch das trägt zur Stabilität bei, denn dadurch können Spieler, die bedingungslos kooperieren, nicht Fuß fassen.
Dagegen behandelt eine Gemeinschaft nachsichtiger Tit-for-Tat-Spieler solche Gimpel nicht schlechter als ihresgleichen – eine sympathische Eigenschaft, die aber auf Dauer teuer zu stehen kommt. Denn dadurch können sich Spieler, die unfähig sind, zurückzuschlagen, in der Bevölkerung ausbreiten und sie gegen Ausbeuter anfällig machen.
Andererseits kann die Pavlov-Strategie in einer Gesellschaft von Unkooperativen niemals gedeihen. Gegen einen konsequenten Betrüger versucht es Pavlov unermüdlich – und selbstverständlich vergeblich – in jeder zweiten Runde mit Kooperation. In Axelrods Turnieren hätte Pavlov sehr schlecht abgeschnitten. Seine Vorteile kommen erst dann zur Geltung, wenn die Population durch andere, strengere Strategien wie etwa Tit for Tat oder Grimm zum Kooperieren gebracht worden ist.
Wieder erhebt sich die Frage: Wie robust sind diese Ergebnisse? Was passiert etwa, wenn man Programme zuläßt, die mehr als nur den letzten Spielzug berücksichtigen? Der Physiker Kristian Lindgren von der Universität Göteborg hat auf raffinierte Weise Mutanten mit einem längeren Gedächtnis in die Simulation eingeführt. Abermals ergaben sich in den meisten Fällen kooperative Gesellschaften. Je nach der Wahl der Auszahlungswerte setzt sich entweder Pavlov durch oder eine Variante, die auch den vorletzten Spielzug in die Entscheidung einbezieht. Auf einen Fehltritt von ihresgleichen hin beispielsweise schlägt sie zweimal zurück, bevor sie wieder kooperiert.
Liebe deinen Nächsten, die anderen triffst du sowieso nicht
Wir können also schließen, daß die Evolution der Kooperation keineswegs unwahrscheinlich ist, wenn die Spieler häufig aufeinandertreffen, einander wiedererkennen und zur Vergeltung fähig sind. Für Menschen trifft das tatsächlich zu. Ein beträchtlicher Teil unseres Gehirns dient beispielsweise dazu, Gesichter zu erkennen. Aber man findet Kooperation auch bei vielen Tierarten, die ihre Partner nicht unterscheiden oder sich ihr Verhalten nicht merken können, ja sogar bei solchen, deren Leben nur kurz und ungewiß ist, so daß es keinen Grund für längerfristige Investitionen gibt. Wie ist das zu erklären?
Möglicherweise treffen solche Organismen nur auf einige wenige Artgenossen und erreichen dann irgendwie – vielleicht durch Festhalten –, daß ihnen diese Partner nicht abhanden kommen. Während wir bisher angenommen haben, daß jedes Mitglied der Bevölkerung mit jedem anderen (oder, was auf dasselbe hinausläuft, mit einer repräsentativen Stichprobe) das Gefangenendilemma spielt, betrachten wir jetzt den Fall, daß es jeder Spieler nur mit wenigen Nachbarn zu tun hat.
Es wird niemanden überraschen, daß sich Kooperation in einer seßhaften Bevölkerung leichter ausbildet als in einer anonymen, fluktuierenden Masse. Mobile Ausbeuter können sich leichter davonmachen, doch bei festem Wohnsitz müssen sie mit Vergeltungsmaßnahmen rechnen. Nachbarschaftshilfe ist dementsprechend weitverbreitet. Erstaunlicherweise kann aber eine territoriale Bindung selbst im scheinbar hoffnungslosen, nicht iterierten Gefangenendilemma die Zusammenarbeit fördern.
Um das zu verstehen, betrachten wir eine Variante des Turniers mit seßhaften Spielern. Auf jedem Feld eines großen Schachbretts sitzt ein Teilnehmer. Er ist entweder auf Kooperation oder auf Verweigern programmiert und spielt eine Runde des Gefangenendilemmas gegen jeden seiner acht Nachbarn. In der nächsten Generation praktiziert der Feldinhaber die Strategie, welche die meisten Punkte eingebracht hat – entweder die eigene oder die eines Nachbarn; das ist so, als würde ein Sohn des erfolgreichen Nachbarn den bisherigen Besitzer beerben (vergleiche Spektrum der Wissenschaft, März 1993, Seite 18).
Ein isolierter Kooperator wird selbstverständlich von den angrenzenden Verweigerern ausgebeutet und verdrängt. Aber ein Quadrat von vier Kooperatoren kann sich unter Umständen halten, denn jeder von ihnen spielt gegen drei Gleichgesinnte, während ein Verweigerer aus seiner Außenseiterposition höchstens zwei Kooperatoren zu erreichen und auszubeuten vermag. Wenn der Bonus für die Verweigerung nicht allzu groß ist, können sich Kooperatoren Schulter an Schulter ausbreiten. Umgekehrt wird es einem isolierten Verweigerer gut gehen, weil er alle Nachbarn ausbeuten kann. Aber sein Nachkomme ist möglicherweise von seinesgleichen umgeben und lebt entsprechend kärglicher.
Die zeitliche Entwicklung hängt von der Anfangsverteilung und von den genauen Auszahlungswerten ab. Es kann sicherlich vorkommen, daß die Verweigerer schließlich das ganze Spielbrett beherrschen. Aber oft ergeben sich regelmäßig oder unregelmäßig fluktuierende Mosaike, in denen beide Strategien sich behaupten. Verweigerer und Kooperatoren können dann unbeschränkt lange koexistieren; ihr Zahlenverhältnis pendelt sich auf einen vorbestimmbaren Mittelwert ein (Bild 6). Dieses Resultat hat unter einer beträchtlichen Variation der Bedingungen Bestand. Im wesentlichen kommt es nur darauf an, daß jeder Spieler nicht zu viele Nachbarn besitzt.
Diese einfachen Regeln ergeben Entwicklungen von ungeahnter Komplexität. Manche Gebilde wandern quer über das Spielbrett und nehmen dabei periodisch ihre ursprüngliche Gestalt wieder an. Es können auch unbegrenzt wachsende Muster entstehen. Wir stoßen hier an die Grenzen der Vorhersagbarkeit und können nur staunend verfolgen, wie sich die Arabesken entfalten (vergleiche die "Mathematischen Unterhaltungen" in dieser Ausgabe, Seite 10).
Räumliche Strukturen fördern und beschützen die Vielfalt. Im Gefangenendilemma erlauben sie es Kooperativen und Unkooperativen, Seite an Seite zu existieren. In einem gar nicht so verschiedenen Kontext ermöglichen sie das gemeinsame Überleben von Parasiten und Wirtsorganismen oder von Raub- und Beutetieren, trotz der grundsätzlichen Instabilität ihrer Wechselwirkungen.
Auch in der präbiotischen Evolution scheint es zur Kooperation diverser Arten von Molekülen gekommen zu sein. Es scheint zunehmend plausibler, daß einige der für den Ursprung des Lebens wichtigsten Reaktionen nicht in einer wohldurchmischten Ursuppe stattgefunden haben, sondern an den Oberflächen gewisser Mineralien – manche sprechen bereits von der "Ur-Pizza". Die Replikation eines Moleküls zu katalysieren ist eine Form der Hilfeleistung gegenüber diesem Molekül; ein geschlossener Kreis solcher katalytischen Reaktionen wäre das früheste Beispiel einer wechselseitigen Hilfe (vergleiche "Ursprung der genetischen Information" von Manfred Eigen, William Gardiner, Peter Schuster und Ruthild Winkler-Oswatitsch, Spektrum der Wissenschaft, Juni 1981, Seite 36). In diesem Sinn könnte Kooperation also älter sein als das Leben. Doch wäre sie gefährdet gewesen durch molekulare Varianten, die mehr katalytische Hilfe beanspruchen, als sie weitergeben, und so den katalytischen Rückkopplungskreis zerstören. Doch wie Maarten C. Boerlijst und Paulien Hogeweg von der Universität Utrecht mit Hilfe von Computersimulationen gezeigt haben, können räumliche Strukturen, ähnlich wie beim Gefangenendilemma, die Ausbreitung zerstörerischer molekularer Parasiten eindämmen.
Auch in der weiteren Geschichte des Lebens ist es immer wieder durch das symbiotische Zusammenwirken kleinerer Einheiten zur Bildung komplexer Strukturen gekommen. Beispiele sind die eukaryotische Zelle als (Endo-)Symbiose prokaryotischer Zellen, der mehrzellige Organismus und der Ameisenstaat. Unsere simplen Modelle weisen auf, wie sich in einfachen biologischen Systemen Kooperation ausbilden und halten kann: bei höheren Lebewesen dadurch, daß sie häufig wieder aufeinander treffen, bei einfacheren Lebewesen durch die bloße Nachbarschaftsstruktur.
Wir dürfen nicht erwarten, mit einfachen Gedankenspielen lebensechte Situationen nachbilden zu können. Dazu ist das Ergebnis des Jahrmilliarden langen Tauziehens zwischen Kooperation und Ausbeutung zu komplex. In seiner reinen Gestalt kommt das Gefangenendilemma wahrscheinlich so selten vor wie die aus dem Physikunterricht vertraute reibungslose Bewegung. Aber so wie diese sollte auch das Gefangenendilemma einen Platz in den Lehrplänen finden.
Literaturhinweise
– Die Evolution der Kooperation, Von Robert Axelrod. Oldenbourg, München 1991.
– Tit For Tat in Heterogeneous Populations. Von Martin A. Nowak und Karl Sigmund in: Nature, Band 355, Heft 6357, Seiten 250 bis 253, 16. Januar 1992.
– Evolutionary Games and Spatial Chaos. Von Martin A. Nowak und Robert M. May in: Nature, Band 359, Heft 6398, Seiten 826 bis 829, 29. Oktober 1992.
– A Strategy of Win-Stay, Lose-Shift that Outperforms Tit For Tat in the Prisoner's Dilemma Game. Von Martin A. Nowak und Karl Sigmund in: Nature, Band 364, Heft 6432, Seiten 56 bis 58, 1. Juli 1993.
– Evolutionary Dynamics of Spatial Games. Von Kristian Lindgren und Mats G. Nordahl in: Physica D, Band 75, Seiten 292 bis 309, 1994.
– Spielpläne. Zufall, Chaos und die Strategien der Evolution. Von Karl Sigmund. Hoffmann und Campe, Hamburg 1995.
Aus: Spektrum der Wissenschaft 8 / 1995, Seite 46
© Spektrum der Wissenschaft Verlagsgesellschaft mbH
Schreiben Sie uns!
Beitrag schreiben