Direkt zum Inhalt

Sprachforschung: Computer kommt verborgenen Sprachen auf die Spur

Kann man eine Sprache erforschen, ohne auch nur ein einziges ihrer Wörter anzuschauen? Ja, haben Computerlinguisten jetzt herausgefunden.
Sprachverwandtschaft am Computer berechnet

Ist es möglich, Informationen über eine fremde Sprache zu gewinnen, ohne sich ein einziges Wort in dieser Sprache anzuschauen? Ja, sagen Wissenschaftler vom Massachusetts Institute of Technology (MIT) und dem Technion-Institut in Haifa.

Sie analysierten dazu, wie Muttersprachler dieser Sprache auf Englisch schreiben. Ein lernfähiger Computer sucht in den Texten dann nach aufschlussreichen Eigenarten und rekonstruiert anhand dieser Daten typische Merkmale der Ursprungssprache. Die Methode stellte das Team um den MIT-Computerlinguisten Boris Katz jetzt auf einer Konferenz in Baltimore vor (Studie).

Ursprünglich hatten sich die Forscher eine leichtere Aufgabe gestellt: Ihre Software sollte lediglich erkennen, welche Muttersprache der Autor eines gegebenen Textes spricht. Dazu sammelten sie über 1200 englische Aufsätze, verfasst von Muttersprachlern 14 verschiedener Sprachen, und ließen sie per Computer mit linguistischen Zusatzdaten wie etwa Wortartinformationen anreichern. Anschließend machte eine lernfähige Software charakteristische Spuren ausfindig, die die jeweilige Muttersprache in den englischen Essays hinterlässt.

Stammbaum im Vergleich | Die Analyse anhand englischer Aufsätze (ESL = English as a second language) gruppiert die 14 untersuchten Sprachen ähnlich wie eine Analyse anhand von Daten des "World Atlas of Language Structures" (WALS). So werden beispielsweise auf oberster Ebene nichtindoeuropäische Sprachen von indoeuropäischen Sprachen unterschieden.

Als Ergebnis erhielten sie Vermutungen in Form von Prozentwerten – etwa dass ein gegebener Text mit 51-prozentiger Wahrscheinlichkeit von einem Russischsprecher, mit 33 Prozent von einem Polnischsprecher und nur mit 16 Prozent von einem Japanischsprecher stammt.

Daten zeigen Familienähnlichkeit

Aus diesen Daten wiederum müssten sich noch mehr Informationen gewinnen lassen, erkannten die Forscher. Tatsächlich verraten die Prozentwerte, wie eng verwandt zwei Sprachen sind. Katz und Kollegen konnten so einen kompletten Stammbaum ihrer 14 Sprachen aufstellen, der sich ausschließlich an den Antworten des Algorithmus orientiert und an den meisten Stellen mit dem traditionellen übereinstimmt. "Das Bemerkenswerte an diesem Stammbaum ist, dass ihn unser System ermittelte, ohne auch nur ein einziges Wort in einer der Sprachen gesehen zu haben", erläutert Koautor Yevgeni Berzak in einer Pressemitteilung.

Den Stammbaum wollen die Forscher jetzt nutzen, um mehr über schlecht untersuchte Sprachen in Erfahrung zu bringen. Aus ihm lassen sich nämlich charakteristische Eigenheiten der jeweiligen Sprachen ableiten – so genannte typologische Merkmale, die angeben, nach welchem System eine Sprache beispielsweise im Satzbau vorgeht.

Konkret würde man, um mehr über eine kaum dokumentierte Sprache in Erfahrung zu bringen, englische Aufsätze ihrer Muttersprachler sammeln und daraus Ähnlichkeiten zu besser bekannten Sprachen berechnen und die entsprechenden typologischen Merkmale rechnerisch ableiten. Die Trefferquote ihres Algorithmus erreichte bei dieser Aufgabe immerhin knapp über 70 Prozent. Das ist vergleichbar mit anderen statistischen Methoden, die allerdings auf Texten in der zu untersuchenden Sprache fußen.

Mit mehr Daten zu mehr Sprachen sollte sich die Genauigkeit der Software noch erhöhen lassen, hoffen die Forscher. Beispielsweise sind selbst von verbreiteten Sprachen nicht alle linguistischen Eigenschaften in den gebräuchlichen Datenbanken verzeichnet. Womöglich könnte eine Automatisierung den sehr hohen Aufwand für die Komplettierung verringern, sofern sich genügend Texte auftreiben lassen.

Dann wird sich auch zeigen, ob Katz und Kollegen, denen es eigentlich um die Verbesserung der automatischen Sprachverarbeitung geht, nur auf eine Kuriosität gestoßen sind oder ob ihre Methode einen handfesten sprachtypologischen Nutzen hat.

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.