Künstliche Intelligenz: Verstehen wir bald alle Sprachen der Welt?
Alle Sprachen der Welt verstehen? Manche der Protagonisten in Douglas Adams' Roman »Per Anhalter durch die Galaxis« tragen dazu einen Simultandolmetscher im Ohr, einen Babelfisch. Das seltsame Wesen lebt in den Lauschern seines Nutzers und übersetzt für ihn, was immer es hört.
Wird so die Zukunft aussehen? Eher nicht. Wie aber dann? Dora Szücs, wohl eine Informatikstudentin an der TU Berlin, wirft in diesem Video eine interessante Frage auf: Wird es einmal eine Maschine geben, die alle Sprachen der Welt spricht? Die liebenswerte, aber etwas amateurhafte Art, in der dieses Erklärvideo daherkommt, auch die nuschelige Sprecherstimme – geschenkt. Doch beim Inhalt sollte sich die Macherin beim nächsten Mal etwas mehr Mühe geben.
»Menschliche Sprache ist das Produkt unserer Hirnstruktur«, heißt es gleich zu Anfang. Das ist nur in einem ganz banalen Sinn richtig: Alles, was wir tun, ist das Produkt unserer Hirnaktivität. Und die hängt natürlich auch davon ab, wie die Hirnzellen verschaltet sind. Die Verarbeitung von Sprache findet vor allem in zwei Arealen in der linken Hirnrinde statt. Die Details der neuronalen Informationsverarbeitung in den Sprachzentren des Gehirns – Was genau passiert dort, wenn wir Sprachen erlernen? – sind dagegen nicht geklärt. Völlig offen ist darum, wie man solche Sprachzentren künstlich nachbauen könnte und welchen Erfolg man sich davon versprechen darf.
»Viele argumentieren, dass Maschinen erst dann perfekt übersetzen werden, wenn sie genauso intelligent sind wie wir Menschen«, heißt es dazu im Video. Laien mögen so argumentieren. Experten würden hingegen die Stirn runzeln und erst einmal fragen, was denn hier genau behauptet werden soll. Allerdings ist die Aussage sowieso nicht überzeugend. Neuronale Netze zum Sprachverstehen und Übersetzen liefern schon heute sehr gute Ergebnisse, obwohl sie meilenweit von echter Intelligenz entfernt sind. (Man probiere einmal den Online-Übersetzer Deepl aus.)
Bei ihnen kommen tiefe neuronale Netze (deep neural networks) zum Einsatz, die Neurone und Synapsen im menschlichen Gehirn digital imitieren. »Tief« sind sie, weil ihre Bausteine in mehr als zwei Schichten hierarchisch übereinanderliegen und einzelne Informationen oft über Millionen von Verbindungen weitergeben. Trainiert werden die künstlichen Netze mit riesigen Datensätzen, zum Beispiel mit Bildern von Autos. Diesen Input analysieren sie und gewichten die Verbindungen zwischen Neuronen so lange um, bis der Output – das Netz erkennt Autos auch auf bislang unbekannten Bildern als solche – passt.
Im Fall der Sprache benutzt man tiefe neuronale Netze eines besonderen Typs, meist »Long Short Term Memory«-Netze (LSTM). Wir Menschen verstehen Wörter in einem Satz und wiederum Sätze in einem Text auch dadurch, dass wir um die vorangegangenen Wörter und Sätze wissen. Denn die Bedeutung von Worten und Sätzen ist abhängig vom jeweiligen sprachlichen Kontext, in dem sie stehen.
LSTM-Netze sind nun in der Lage, genau solche nacheinander einlaufenden Inputs, wie etwa die Wörter eines Satzes, zu integrieren und so kontextabhängige Outputs zu erzeugen. Dafür verarbeiten sie eine Eingabe nicht nur schichtweise und geben sie dann an eine höhere Schicht weiter, sondern leiten Reize auch von höheren in niedrigere Schichten zurück. Damit verfügen sie über eine Art Gedächtnis: Sie können nachfolgende Eingaben in Beziehung zu früheren setzen. Im Fall von Übersetzungen benötigt man letztlich sogar zwei Netze, eines für die Ausgangssprache und eines für die Zielsprache (siehe etwa Die Suche nach dem Babelfisch auf »Zeit Online«).
Die verschiedenen Ansätze der Maschinenübersetzung und ihre jeweiligen Grenzen spricht das Video leider nur extrem kurz an. Neben der neuronalen Maschinenübersetzung stellt es immerhin auch die regelbasierte vor, die auf unzähligen integrierten linguistischen Regeln beruht. Der Schnellabriss im Clip reicht allerdings gerade mal dafür, dass seine Zuschauer Begriffe wie »regelbasiert« und »neuronal« anschließend auf einer Party fallen lassen können. Hinter ihnen stecken aber wichtige Unterschiede und Gemeinsamkeiten, in denen sich die Versuche spiegeln, Strukturen und Bedeutung von Sprachen zu fassen und Elemente unterschiedlicher Sprachen ineinander zu übersetzen.
Zum Beispiel lohnt es sich zu erwähnen, dass auch neuronale Netze in einem gewissen Sinn »Regeln« oder Strukturen aus den sprachlichen Inputs filtern, mit denen man sie trainiert. Jedoch stecken diese Regeln dann implizit in den Gewichten der Synapsen des Netzwerks und lassen sich nicht in expliziten Anleitungen, ob sprachlicher oder mathematischer Art, fassen (hier ein guter Einstieg).
Ein bisschen mehr Input zum Thema hätte man sich von dem Video also gewünscht. Dass es eine Antwort auf die Ausgangsfrage schuldig bleibt – ob es eine Maschine geben wird, die alle Sprachen spricht –, kann man ihm beim derzeitigen Stand der technischen Entwicklung hingegen nicht zum Vorwurf machen.
Schreiben Sie uns!
1 Beitrag anzeigen