Künstliche Intelligenz: Wie man einer KI 200 Sprachen beibringt
Möchte man zwischen Sprachen hin- und herübersetzen, ist man seit einigen Jahren nicht mehr auf mühsame Wort-für-Wort-Übersetzungen angewiesen. KI-Übersetzungsprogramme wie DeepL oder Google Translate können ganze Textabschnitte in Windeseile von einer Sprache in eine andere übersetzen – vorausgesetzt, es handelt sich um eine im globalen Norden verbreitete Sprache wie Englisch, Französisch oder Deutsch. Möchte man hingegen die Bantusprache Luganda übersetzen, die im Süden Ugandas verbreitet ist, stößt man meist auf Probleme. Da es lediglich wenige digitale Inhalte in dieser Sprache gibt, lässt sich eine KI nur sehr schwer trainieren. Doch 2022 hat Meta das quelloffene Übersetzungsprogramm NLLB (no language left behind) veröffentlicht, das 204 Sprachen beherrscht, darunter 150 ressourcenarme Sprachen wie Luganda. Am 5. Juni 2024 hat das Meta-Team im Fachjournal »Nature« erklärt, wie dieser Geniestreich gelungen ist.
Neben den fehlenden Textquellen zu ressourcenarmen Sprachen gibt es eine weitere große Schwierigkeit bei der Erstellung eines umfassenden KI-Übersetzungsprogramms. Wenn man solche Algorithmen auf möglichst viele Sprachen trainiert, leidet darunter meist die gesamte Qualität. Ein Programm, das sonst sehr gut zwischen Deutsch und Englisch übersetzt, kann sich mit der Aufgabe etwa deutlich schwerer tun, wenn es noch 40 weitere Sprachen beherrschen soll. Um diesem Leistungsverlust vorzubeugen, muss man die Modelle in der Regel vergrößern – was allerdings zu einem deutlich höheren Aufwand beim Training und zu längeren Laufzeiten führt.
Um diesem »Fluch der Mehrsprachigkeit« zu entgehen, hat das Meta-Team das NLLB-Sprachmodell in viele verschiedene kleinere KI-Modelle aufgeteilt, die jeweils eine Aufgabe besonders gut beherrschen. So bedient ein Modell beispielsweise Benue-Kongo-Sprachen, die in der Subsahara verbreitet sind, während sich ein anderes Modell etwa auf Sprachen mit ähnlicher Schrift fokussiert. Ein weiteres Modell könnte auch auf Redewendungen spezialisiert sein. Der Einsatz dieser separaten KI-Modelle ermöglicht es, Qualitätsverlusten durch eine große Anzahl von Sprachen vorzubeugen.
Ein umfassender Datensatz
Einer der wichtigsten Bausteine des NLLB-Modells ist aber der Datensatz: »Flores-200« ist für jeden zugänglich und umfasst 204 verschiedene Sprachen. Das Sprachmodell wurde insgesamt mit drei verschiedenen Arten von Daten trainiert. Zunächst einmal sammelten die Forschenden öffentlich zugängliche Texte aus dem Internet, zudem 6000 ausgesuchte Beispielsätze in 39 Sprachen, die extrem wenige Ressourcen aufweisen. Darüber hinaus nutzten sie gewisse Sätze mit den dazugehörigen Übersetzungen, die in Webarchiven verfügbar sind. Mit Hilfe dieser Daten konnten sie einen Algorithmus darauf trainieren, Sätzen mit ähnlicher Bedeutung in unterschiedlichen Sprachen (wie »I like science«, »Ich mag Wissenschaft« und »j'aime la science«) hochdimensionale Koordinaten zuzuordnen, die sich nah beieinander befinden. Auf diese Weise konnten die Fachleute Satzpaare mit gleicher Bedeutung in verschiedenen Sprachen erzeugen, um ihr großes KI-Modell zu trainieren.
Inzwischen ist das Übersetzungsprogramm NLLB schon seit zwei Jahren im Einsatz. »Es bietet Übersetzungen von angemessener Qualität in mehreren ressourcenarmen Sprachen«, schreibt der Informatiker David I. Adelani vom University College London, der nicht Teil des Meta-Teams ist, in einem Artikel bei »Nature«. »Allerdings ist die Qualität dieser Übersetzungen immer noch deutlich schlechter als die von Sprachen mit vielen Ressourcen«, wie Deutsch oder Französisch. Um das zu ändern, könnten künftige Sprachmodelle anhand von Grammatik- und Wörterbüchern ihr Sprachverständnis verbessern, wie im März 2024 veröffentlichte Studien nahelegen. Bis es allerdings so weit ist, dass ein Übersetzungsprogramm alle 7000 existierenden Sprachen beherrscht, wird wohl noch jede Menge Zeit vergehen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.