Künstliche Sprache aus dem Baukasten: datenbasierte Sprachsynthese
Im Deutschen gibt es ungefähr 40 verschiedene Sprachlaute. Man nehme einen sorgfältig gesprochenen Text, in dem sie alle vorkommen, auf Tonband auf, zerlege ihn in einzelne Abschnitte, die jeweils einem Laut entsprechen, und speichere diese ab. Dann erzeuge man beliebigen gesprochenen Text, indem man die Laute aus dem Vorrat in der richtigen Reihenfolge elektronisch aneinanderhängt.
All das Detailwissen über den menschlichen Sprechapparat und seine Bewegungen, das man für die regelbasierte Sprachsynthese benötigt (vergleiche den vorstehenden Beitrag von Bernd Kröger), muß man sich bei diesem Verfahren gar nicht beschaffen; es steckt implizit in den so gewonnenen Bausteinen. Der Ansatz ist also zunächst viel einfacher; nur ist die nach diesem Rezept erzeugte Sprache zunächst weitgehend unverständlich. Das mußte 1953 Cyril Harris von den Bell Laboratories in Murray Hill (New Jersey) erfahren, als er Tonbandabschnitte mit Einzellauten in neuen Abfolgen zusammenmontierte.
Der Grund liegt darin, daß ein Laut in hohem Maße durch seine Nachbarlaute beeinflußt wird; denn die menschlichen Artikulatoren wie Lippen und Zunge sind nur zu kontinuierlichen Bewegungen fähig. So klingt das a in "bange" anders als das a in "baff"; der Nasallaut ng färbt den vorhergehenden Vokal ebenfalls nasal. Ähnliches gilt für das lange i in "Tier" und "tief" oder das k in "Kiel" und "Kuh". Paul Menzerath vom Institut für Phonetik der Universität Bonn hatte dieses Phänomen 1933 experimentell nachgewiesen und als Koartikulation bezeichnet.
Nachdem also isolierte Sprachlaute als Bausteine ungeeignet sind, schlugen Karl Küpfmüller und seine Mitarbeiter an der Technischen Hochschule Darmstadt 1956 vor, statt dessen Lautübergänge – Diphone genannt – zu verwenden. Unabhängig von ihnen verfolgten 1958 Gordon Peterson und seine Mitarbeiter an den Sprachforschungslaboratorien der Universität von Michigan in Ann Arbor dieselbe Idee. Ein Diphon erstreckt sich von der Mitte eines Lautes bis zur Mitte des Folgelautes. Beide Gruppen experimentierten mit Tonbandabschnitten und kamen zu dem Schluß, daß die so erzeugte Sprache zwar verständlich, das Zusammenkleben von Tonbandschnipseln aus einem Sortiment von 1600 verakustisches schiedenen Stücken (unterstellt, es gebe einen Übergang von jedem der 40 Sprechlaute zu jedem) jedoch zu aufwendig sei.
Erst durch die Möglichkeit, Sprachbausteine in digitaler Form im Computer zu speichern, wurde die datenbasierte Synthese praktisch durchführbar. Seit 1968 sind zahlreiche Synthesesysteme auf Diphonbasis entwickelt worden; der Großteil der heutzutage kommerziell verfügbaren Systeme arbeitet nach diesem Prinzip.
Die gespeicherten Bausteine müssen jedoch nicht nur aneinandergehängt, sondern auch dem zu sprechenden Text angepaßt werden; das gilt insbesondere für die Tonhöhe und die Lautdauer, die man als prosodische Eigenschaften bezeichnet. Um diese Manipulationen durchführen zu können, aber auch aus Speicherplatzgründen, wurden in den ersten Systemen die Bausteine in stark vereinfachter Form abgelegt, wobei stets Qualität verloren ging. Mit der Verbesserung der Manipulationsalgorithmen und dem Preisverfall für Speicherplatz haben sich diese Kompressionsverfahren erübrigt, und die Sprachqualität ist entsprechend gestiegen.
Allerdings machen sich nun bislang verborgene Schwächen des Ansatzes bemerkbar. Dem Diphonkonzept liegt die Hypothese zugrunde, daß sich koartikulatorische Effekte nur bis zur Mitte der Nachbarlaute auswirken. Das ist aber im allgemeinen nicht der Fall. Wer "Strumpf" sagt, artikuliert zur Vorbereitung auf den drei Laute entfernten gerundeten Vokal bereits das sch mit gerundeten Lippen (im Gegensatz zum selben Laut in "Strich"). Deswegen schlug Petersons Mtarbeiterin Eva Sievertsen 1960 silbenorientierte Bausteine, sogenannte Halbsilben, vor. Jede Silbe wird dabei aus einer Anfangs- und einer Endhalbsilbe zusammengesetzt, wobei der Verknüpfungspunkt in der Mitte des Vokals liegt; so wird das Wort "Strolch" aus "Stro" und "olch" gebildet.
Die Koartikulation ist jedoch auch über Silbengrenzen hinweg wirksam. So ist in "Mitleid" das t sehr stark durch das folgende l beeinflußt. Außerdem ist es schwierig, ein vollständiges Sortiment der Halbsilben einer Sprache zusammenzustellen. Schließlich sind Verschleifungen der Aussprache schlecht zu modellieren. Das Wort "haben" beispielsweise wird im Normalfall wie "habm" gesprochen. Maschinell erzeugte Sprache wirkt sehr viel natürlicher, wenn sie solche Verschleifungen enthält.
Am Institut für Kommunikationsforschung und Phonetik der Universität Bonn haben wir deshalb für das von uns entwickelte Sprachsynthesesystem Hadifix ein neues Baustein-Inventar festgelegt, das sich an den phonetisch-akustischen Gegebenheiten der natürlichen Sprache orientiert. Es enthält Bausteine aus sieben Klassen, darunter Diphone, Halbsilben, Einzellaute und Silben. (Der Name Hadifix, verkürzt aus Halbsilben-Diphon-Suffix, spielt darauf an.) Die Bausteine werden so zu Lautfolgen zusammengefügt, daß sie sich möglichst stark überlappen. Der Anfang des neuen Lautes ersetzt das Ende des alten (Bild).
Dieses Verfahren simuliert die koartikulatorischen Phänomene. Das Ergebnis klingt dadurch glatter als Sprache, die einfach durch Aneinanderreihen von Diphonen oder Halbsilben erzeugt wurde; das haben Wahrnehmungsexperimente bestätigt. Die Lautverständlichkeit ist nahezu die von natürlicher Sprache.
Das Baustein-Inventar umfaßt etwa 2200 Einheiten. Damit diese tatsächlich verfügbar sind, muß ein Sprecher oder eine Sprecherin einen Text verlesen, in dem die Bausteine enthalten sind und der bezüglich koartikulatorischer Effekte möglichst neutral ist. Der gesprochene, etwa vier Stunden lange Text wird digitalisiert; ein Programm, das allerdings der Unterstützung und Kontrolle durch den Menschen bedarf, bestimmt dann, wo die Bausteine anfangen und aufhören. Dazu haben wir teilweise Methoden aus der maschinellen Spracherkennung übernommen (Spektrum der Wissenschaft, März 1994, Seite 86). Ein Synthese- Inventar zu erstellen dauert gegenwärtig etwa eine Woche; allein 20 Stunden erfordert die Kontrolle der Bausteingrenzen.
Unser Verfahren arbeitet also mit fast naturbelassenem Material, weswegen es erheblich bessere Sprachausgabe erzeugt als die regelbasierten Methoden. Der Computer spricht mit der wiedererkennbaren Stimme eines Menschen – vorausgesetzt, dieser ist bereit, vier Stunden Text in ein Mikrophon zu sprechen. Der Speicherplatzbedarf eines Synthese-Inventars hängt von der Abtastrate, der Anzahl der Bausteine sowie der Bitrate ab und liegt zwischen 200 Kilobyte und 30 Megabyte. Durch den rasanten Preisverfall bei Speichermedien sind datenbasierte Verfahren inzwischen auch dort anwendbar, wo Speicherplatz eigentlich knapp und teuer ist, etwa in einem sprechenden Autoradio. Sowie die Benutzer die Computerstimme akzeptieren, steht einer breiten Anwendung nichts mehr im Wege.
Aus: Spektrum der Wissenschaft 12 / 1996, Seite 107
© Spektrum der Wissenschaft Verlagsgesellschaft mbH
Schreiben Sie uns!
Beitrag schreiben