Sprachwissenschaft: Computer soll tote Sprachen entschlüsseln
In eingeritzten oder geschriebenen Zeichen die Spuren einer längst ausgestorbenen Sprache zu erkennen und diese dann auch noch zu übersetzen, ist traditionell das Ergebnis großer Gelehrsamkeit und langer, einsamer Stunden in der Studierstube. Jetzt könnte ein Computerprogramm den Sprachforschern Beistand leisten.
Das Programm ist darauf ausgelegt, eine Textsammlung zu bearbeiten, bei der eine unbekannte Sprache in einem unbekannten Alphabet geschrieben ist. Als Vergleich dient eine Textsammlung in einer mutmaßlich verwandten Sprache. Erste Tests verliefen bereits viel versprechend.
Die Idee hinter dem System, das die MIT-Forscher Benjamin Snyder und Regina Barzilay gemeinsam mit ihrem Kollegen Kevin Knight von der University of Southern California in Marina del Rey entwickelten, ist es, die Arbeitsweise des klassischen Übersetzers so gut es geht zu imitieren. Wie dieser fahndet das Programm nach Wörtern, die in ähnlicher Form in der Vergleichssprache auftauchen – analog zu den Wörtern "Boot" und "boat" im Deutschen und Englischen.
Das funktioniert allerdings nur, wenn die Schrift entziffert ist, was wiederum lediglich dann Aussicht auf Erfolg hat, wenn zumindest einzelne Wörter in ihrer Lautgestalt bekannt sind. Um dieses zentrale Dilemma zu lösen, verlegen sich die Forscher auf statistische Verfahren, genauer gesagt auf bayessche Wahrscheinlichkeitsrechnung.
Aus der Häufigkeit von Zeichen leiten sie zunächst erste Annahmen über mögliche Buchstabenkorrespondenzen ab und belegen auf dieser Grundlage sowohl Zeichen- als auch die sich daraus ergebenden Wortzuordnungen mit einer gewissen Wahrscheinlichkeit. Diese Werte lassen sich im zweiten Schritt verwenden, um neue Wahrscheinlichkeiten in der jeweils anderen Domäne zu ermitteln. Diesen Vorgang wiederholt das System viele tausend Mal, bis sich die Wahrscheinlichkeitswerte einpendeln.
Um die Ergebnisse des Verfahrens zu überprüfen, wendeten es Barzilay und Kollegen auf eine bereits Anfang des 20. Jahrhunderts entschlüsselte Sprache an: das semitische Ugaritisch, das ab dem 14. Jahrhundert v. Chr. im heutigen Syrien gesprochen wurde und auf Keilschrifttafeln überliefert ist. Als Vergleichssprache diente biblisches Hebräisch.
Wie Barzilay und Kollegen berichten, konnte ihre Software alle bis auf eines der 30 Keilschriftzeichen ihren hebräischen Gegenstücken zuordnen. Darüber hinaus erkannte das Programm 60 Prozent der als gesichert verwandt bekannten Wörter. Ähnliche Programme, die Teammitglied Kevin Knight vor einigen Jahren entwickelt hatte, schnitten im Vergleich deutlich schlechter ab.
Auch die Wortbildungsregeln der bekannten Sprache kann das System berücksichtigen und auf die zu entschlüsselnde Sprache übertragen. Dabei gehen die Wissenschaftler davon aus, dass jedes Wort aus einem Stamm mit Vor- und Nachsilbe bestehen kann. In die Analyse des Ugaritischen ging daher auch eine Aufstellung solcher grammatischen Elemente im Hebräischen ein.
Die drei Wissenschaftler beeilen sich, darauf hinzuweisen, dass ihr System die Arbeit eines versierten Sprachforschers nicht ersetzen, sondern bestenfalls unterstützen könne. Statt mühsam per Hand verwandte Wörter zu suchen, könne nun der Computer plausible Vorschläge machen. Wo ihr Programm fehlerhafte Formen ausspuckt, habe man oft schon auf den ersten Blick die richtige Variante erkennen können. Auch liefere der Satzzusammenhang, in dem ein Wort auftaucht, unschätzbare Zusatzinformationen, die bislang nur ein menschlicher Gutachter in Betracht ziehen könne.
Größtes Manko des Computerprogramms ist allerdings seine Beschränkung auf Alphabetschriften. Weltweit harren nur noch wenige Sprachen, die in einem solchen Schriftsystem notiert wurden, ihrer Entschlüsselung. Dazu zählt beispielsweise die Sprache der Etrusker: Deren Schrift ist zwar lesbar, die Inhalte widersetzen sich allerdings seit jeher allen Deutungsversuchen. Obendrein ist die Familienzugehörigkeit des Etruskischen umstritten. Im Zweifel müssten also sämtliche Kandidaten, die als verwandte Idiome in Frage kommen, einzeln als Vergleichssprache herangezogen werden.
Daneben schlägt das Team vor, seinen Algorithmus bei der maschinellen Textübersetzung einzusetzen. Besonders Firmen wie Google verlassen sich immer mehr darauf, in riesigen Textsammlungen, so genannten Korpora, nach Parallelen zu suchen. Das neue System könnte hier nach Meinung der Forscher einen substanziellen Beitrag leisten.
Jan Dönges
Das Programm ist darauf ausgelegt, eine Textsammlung zu bearbeiten, bei der eine unbekannte Sprache in einem unbekannten Alphabet geschrieben ist. Als Vergleich dient eine Textsammlung in einer mutmaßlich verwandten Sprache. Erste Tests verliefen bereits viel versprechend.
Die Idee hinter dem System, das die MIT-Forscher Benjamin Snyder und Regina Barzilay gemeinsam mit ihrem Kollegen Kevin Knight von der University of Southern California in Marina del Rey entwickelten, ist es, die Arbeitsweise des klassischen Übersetzers so gut es geht zu imitieren. Wie dieser fahndet das Programm nach Wörtern, die in ähnlicher Form in der Vergleichssprache auftauchen – analog zu den Wörtern "Boot" und "boat" im Deutschen und Englischen.
Das funktioniert allerdings nur, wenn die Schrift entziffert ist, was wiederum lediglich dann Aussicht auf Erfolg hat, wenn zumindest einzelne Wörter in ihrer Lautgestalt bekannt sind. Um dieses zentrale Dilemma zu lösen, verlegen sich die Forscher auf statistische Verfahren, genauer gesagt auf bayessche Wahrscheinlichkeitsrechnung.
Aus der Häufigkeit von Zeichen leiten sie zunächst erste Annahmen über mögliche Buchstabenkorrespondenzen ab und belegen auf dieser Grundlage sowohl Zeichen- als auch die sich daraus ergebenden Wortzuordnungen mit einer gewissen Wahrscheinlichkeit. Diese Werte lassen sich im zweiten Schritt verwenden, um neue Wahrscheinlichkeiten in der jeweils anderen Domäne zu ermitteln. Diesen Vorgang wiederholt das System viele tausend Mal, bis sich die Wahrscheinlichkeitswerte einpendeln.
Um die Ergebnisse des Verfahrens zu überprüfen, wendeten es Barzilay und Kollegen auf eine bereits Anfang des 20. Jahrhunderts entschlüsselte Sprache an: das semitische Ugaritisch, das ab dem 14. Jahrhundert v. Chr. im heutigen Syrien gesprochen wurde und auf Keilschrifttafeln überliefert ist. Als Vergleichssprache diente biblisches Hebräisch.
Wie Barzilay und Kollegen berichten, konnte ihre Software alle bis auf eines der 30 Keilschriftzeichen ihren hebräischen Gegenstücken zuordnen. Darüber hinaus erkannte das Programm 60 Prozent der als gesichert verwandt bekannten Wörter. Ähnliche Programme, die Teammitglied Kevin Knight vor einigen Jahren entwickelt hatte, schnitten im Vergleich deutlich schlechter ab.
Auch die Wortbildungsregeln der bekannten Sprache kann das System berücksichtigen und auf die zu entschlüsselnde Sprache übertragen. Dabei gehen die Wissenschaftler davon aus, dass jedes Wort aus einem Stamm mit Vor- und Nachsilbe bestehen kann. In die Analyse des Ugaritischen ging daher auch eine Aufstellung solcher grammatischen Elemente im Hebräischen ein.
Die drei Wissenschaftler beeilen sich, darauf hinzuweisen, dass ihr System die Arbeit eines versierten Sprachforschers nicht ersetzen, sondern bestenfalls unterstützen könne. Statt mühsam per Hand verwandte Wörter zu suchen, könne nun der Computer plausible Vorschläge machen. Wo ihr Programm fehlerhafte Formen ausspuckt, habe man oft schon auf den ersten Blick die richtige Variante erkennen können. Auch liefere der Satzzusammenhang, in dem ein Wort auftaucht, unschätzbare Zusatzinformationen, die bislang nur ein menschlicher Gutachter in Betracht ziehen könne.
Größtes Manko des Computerprogramms ist allerdings seine Beschränkung auf Alphabetschriften. Weltweit harren nur noch wenige Sprachen, die in einem solchen Schriftsystem notiert wurden, ihrer Entschlüsselung. Dazu zählt beispielsweise die Sprache der Etrusker: Deren Schrift ist zwar lesbar, die Inhalte widersetzen sich allerdings seit jeher allen Deutungsversuchen. Obendrein ist die Familienzugehörigkeit des Etruskischen umstritten. Im Zweifel müssten also sämtliche Kandidaten, die als verwandte Idiome in Frage kommen, einzeln als Vergleichssprache herangezogen werden.
Daneben schlägt das Team vor, seinen Algorithmus bei der maschinellen Textübersetzung einzusetzen. Besonders Firmen wie Google verlassen sich immer mehr darauf, in riesigen Textsammlungen, so genannten Korpora, nach Parallelen zu suchen. Das neue System könnte hier nach Meinung der Forscher einen substanziellen Beitrag leisten.
Jan Dönges
Schreiben Sie uns!
Beitrag schreiben