Freistetters Formelwelt: Sprache erkennen mit Mathematik
Stellen wir uns vor, wir empfangen mit unseren Radioteleskopen ein Signal. Ein Signal, das nicht so aussieht wie das, was man von einem Stern, einer Galaxie oder einem anderen natürlichen Objekt erwarten würde. Ein Signal, das vielleicht eine Botschaft intelligenter Außerirdischer an uns sein könnte. Wir verstehen natürlich nicht die Sprache, in der sie verfasst ist. Noch viel schlimmer ist aber: Wir wissen nicht einmal sicher, ob es sich überhaupt um eine Botschaft handelt – oder nicht vielleicht doch um irgendein natürliches Phänomen, das wir einfach noch nicht entdeckt haben.
Hier braucht man die Mathematik, die auch für so einen Fall die passende Formel parat hat. Nämlich diese:
Das ist das zipfsche Gesetz, benannt nach dem amerikanischen Linguisten George Kingsley Zipf. In den 1930er Jahren beschäftigte er sich mit der Häufigkeit von Wörtern in verschiedenen Sprachen. Man kann in einem Text ja alle verwendeten Wörter sortieren und nachzählen, wie oft sie verwendet worden sind. Wörter wie »das« oder »und« werden vermutlich recht häufig vorkommen; auf Begriffe wie »Gabelfrühstück« oder »gnaddelig« wird man eher selten treffen.
Alle Folgen seiner wöchentlichen Kolumne, die immer sonntags erscheint, finden Sie hier.
Wenn man die Wörter eines Textes nach ihrer Häufigkeit geordnet hat, kann man ihnen einen »Rang« zuweisen. Das häufigste Wort hat Rang 1, das zweithäufigste den Rang 2, und so weiter. Das in der Formel beschriebene zipfsche Gesetz verknüpft nun die Wahrscheinlichkeit p(i), dass ein Wort in einem Text auftritt, mit dem Rang i, den dieses Wort besitzt. Anders gesagt: Das häufigste Wort einer Sprache wird doppelt so oft benutzt wie das zweithäufigste und dreimal so oft wie das dritthäufigste, und so weiter.
Was erzählen sich Delfine?
Es ist natürlich keine exakte Beziehung; man kann sich durchaus Texte vorstellen, in denen sehr viel öfter über »Gabelfrühstück» geschrieben wird, als man erwarten würde. Der Roman »Anton Voyls Fortgang« von Georges Perec kommt komplett ohne den Buchstaben »e« aus, sowohl in seiner deutschen Übersetzung als auch im französischen Original (»La Disparition«), und ist daher auch nicht repräsentativ für den Gebrauch von Sprache.
Aber statistisch betrachtet und wenn man die extrem seltenen Wörter ignoriert, hält das zipfsche Gesetz. Warum das so ist, weiß man immer noch nicht genau. Aber man weiß, dass das Gebrabbel von Babys nicht dem zipfschen Gesetz entspricht; die Laute, die Säuglinge von sich geben, sind fast komplett zufällig. Erst später nähern sich die Äußerungen von Kleinkindern der von Zipf beschriebenen Verteilung an. Auch die Pfeiflaute von Delfinen folgen annähernd dem zipfschen Gesetz, was darauf hindeutet, dass auch sie als komplexe Sprache verstanden werden können.
Was die Delfine einander im Detail erzählen, wissen wir nicht. Doch das zipfsche Gesetz legt nahe, dass sie sich tatsächlich Dinge erzählen. Eine ähnliche Analyse wurde auch beim berühmten Voynich-Manuskript angewendet, einem mysteriösen Text, der aus dem 15. oder 16. Jahrhundert stammt (oder zu stammen scheint) und den bis heute niemand eindeutig entschlüsseln konnte. Die unbekannten Symbole, die dort zu lesen sind, folgen aber dem zipfschen Gesetz, was immerhin ein Hinweis darauf ist, dass da wirklich etwas steht und nicht einfach nur irgendwer irgendwas auf das Papier gekritzelt hat.
Zurück zur potenziellen Nachricht der hypothetischen Aliens: Wenn auch sie dem zipfschen Gesetz folgt, stehen die Chancen gut, dass wir wirklich etwas vor uns haben, was tatsächlich in einer Sprache verfasst und kein natürliches Signal ist. Was nicht heißt, dass etwaige Aliensprachen vielleicht ganz anderen Gesetzen folgen. Bei der Suche nach außerirdischen Intelligenzen ist man allerdings für jede Hilfe dankbar, also wird auch in der SETI-Forschung genau auf das zipfsche Gesetz geschaut. Und ich besorge mir jetzt ein Gabelfrühstück, denn wenn ich Hunger habe, werde ich immer ein wenig gnaddelig.
Schreiben Sie uns!
Beitrag schreiben