Von Sprechbewegungen zum akustischen Signal: artikulatorische Sprachsynthese
Ein Prinzip, Sprache künstlich zu erzeugen, hat eine lange Geschichte: Man bilde die Sprechorgane des Menschen und ihre Bewegung möglichst getreu in einer Maschine nach. Diese muß also die Funktionen von Lunge, Luftröhre, Stimmlippen sowie Rachen-, Mund- und Nasenraum haben (Bild 1). Wenn man in das mechanische Gegenstück der Luftröhre Luft mit geeignetem Überdruck einbläst, sollte der Apparat die gleichen Laute hervorbringen wie ein sprechender Mensch. Der mechanische Syntheseapparat des Christian Gottlieb Kratzenstein von 1779 erzeugte mittels einfacher, dem menschlichen Produktionsmechanismus nachgebildeter Resonatoren statische Vokalklänge. Baron Wolfgang von Kempelen entwickelte um 1791 einen Apparat, der bereits ganze Sätze sprechen konnte.
In diesem Jahrhundert wurde dann die Modellbildung einen Schritt weiter getrieben: Zu dem mechanischen Modell des menschlichen Sprechtrakts konstruierte man zunächst elektrische Schaltkreise, die dessen Verhalten genau imitieren sollten; eine Abstraktionsstufe höher rechnet man heute nur noch aus, wie sich die Luft an repräsentativen Punkten des Sprechtrakts verhält. Der Rechenaufwand ist erheblich; aber durch die enorme Steigerung der Prozessorleistung berechnet mittlerweile ein handelsüblicher PC ohne spezielle Hardware eine Sekunde Sprachäußerung in ungefähr 20 Sekunden.
Natürliche Sprachproduktion
Ein akustisches Sprachsignal bezieht seine Schallenergie aus dem Überdruck in der Lunge und dem resultierenden, zum Mund gerichteten Luftstrom. Dieser regt die Stimmlippen im Kehlkopf zu Schwingungen an, die ihrerseits dem Luftstrom periodische Druck- und Geschwindigkeitsschwankungen aufprägen und damit das Basissignal für stimmhafe Laute (insbesondere Vokale) ergeben. An Engstellen im Mundraum wird der Luftstrom turbulent und erzeugt dadurch ein Rauschen, das als Basissignal für Reibelaute wie f dient.
Beide Signale werden zu erkennbaren Sprachlauten erst dadurch, daß sie durch Rachen-, Mund- und Nasenraum als akustische Filter sowie Mund und Nase als Ausgangsöffnungen noch erheblich überformt werden. Durch die Bewegung von Lippen, Zunge und Gaumensegel ändert sich fortwährend die Form des Hohlraumes zwischen Stimmlippen und Mund und damit auch die Struktur des akustischen Signals. Gerade in diesen Änderungen ist die Information enthalten, die durch das Sprechen übermittelt wird.
Welcher Vokal erklingt, bestimmt der Sprecher, indem er den gesamten Sprechtrakt durch Zunge und Lippen entsprechend formt. Konsonanten bildet er durch eine lokale Verengung im Mundraum mit dem Zungenrücken (g und k), der Zungenspitze (d und t) oder den Lippen (b und p). Bei stimmlosen Lauten (p, t, k im Gegensatz zu b, d, g) sind zusätzlich noch die Stimmlippen geöffnet. Bei Nasallauten wie m oder n koppelt man durch Senken des Gaumensegels den Nasenraum akustisch an die Mundhöhle an.
Ein Beispiel (siehe nebenstehenden Kasten): Um das Wort "muß" auszusprechen, schließt man zunächst die Lippen und senkt das Gaumensegel zur Realisierung des m; für das kurze u (phonetisch als Lautsymbol geschrieben) rundet man die Lippen, hebt den Zungenrücken und verlagert ihn zurück. Schließlich hebt man die Zungenspitze und öffnet die Stimmlippen, damit das stimmlose s erklingt.
Nachbildung
Das artikulatorische Sprachsynthese-System, das wir an der Universität zu Köln entwickelt haben, bildet den Vorgang des natürlichen Sprechens Schritt für Schritt nach. Sein erstes Teilsystem, die Steuerung, berechnet zu einer zu realisierenden Lautfolge, welche Bewegungen die Artikulatoren Zungenrücken, Zungenspitze, Lippen, Stimmlippen und Gaumensegel in der richtigen zeitlichen Koordination auszuführen hätten. Das nächste Teilsystem, das Artikulatormodell, erzeugt aus jeder Position der Sprechwerkzeuge eine abstrakte, vereinfachte, gleichwohl hinreichend getreue Darstellung des Mund- und Rachenraums (des Ansatzrohrs in der Sprache der Akustiker).
Dabei legt man in Gedanken zwanzig ebene Schnitte annähernd quer zum Luftstrom durch dieses Volumen und bestimmt jeweils die Querschnittsfläche. Daß beim Menschen die Luft einem krummen Weg folgt, ist für die Akustik der Lauterzeugung zweitrangig, ebenso die genaue Querschnittsform des Ansatzrohres. Man kann es deshalb, damit der Rechenaufwand erträglich bleibt, durch einen Stapel gleich dicker, scheibenförmiger zylindrischer Hohlräume mit jeweils dem richtigen Querschnitt ersetzt denken (Bild 2).
Dieses Rohr mit räumlich und zeitlich variablem Querschnitt ist nun Eingangsgröße für das aerodynamisch-akustische Modell. Dieses berechnet für jede der Zylinderscheiben die Luftdruck- und Luftstromschwankungen.
Weitere Komponenten des Modells bestimmen den Luftdruck in der Lunge, die Stimmlippenschwingung, das Rauschen durch turbulente Luftströmung an Engstellen (wichtig zur Realisierung von Reibelauten wie s oder h) und die Bedingungen der Schallabstrahlung in den Raum. Jede dieser Komponenten ist durch ein eigenes Unterprogramm realisiert (Bild 3). Am Ende steht eine Folge von Zahlenwerten ähnlich der, die einer Compact Disc eingeprägt ist, allerdings mit weniger Bits pro Sekunde; sie wird in der üblichen Weise in ein hörbares Signal umgewandelt.
Stand der Technik und Ausblick
Bislang sind artikulatorisch basierte Sprachsynthese-Systeme für kommerzielle Anwendungen noch nicht geeignet. Sie sind sehr komplex, erfordern hohen Rechenaufwand, und die Sprachqualität ist noch unbefriedigend. Bereits jetzt sind sie jedoch interessant als vollständig durchschaubare Modellsysteme, um daran Vorgänge der Sprachproduktion und der Sprachwahrnehmung zu erforschen.
Wir erwarten, daß die vom System erzeugte Sprache durch Verfeinerung der verschiedenen Modellkomponenten dem natürlichen Vorbild noch sehr viel näher kommen wird. Im Prinzip hat unser Verfahren sogar das Potential, die methodischen Grenzen anderer Sprachsyntheseverfahren zu überwinden.
Drei Eigenschaften natürlicher Sprache seien als Beispiele genannt: Die Frequenz der Stimmlippenschwingung wird durch Bildung von Engstellen im Ansatzrohr noch verändert; benachbarte Laute beeinflussen einander in ihrer artikulatorischen und akustischen Realisierung; und beim schnellen Sprechen kürzt man nicht nur die Vokale in ihrer Dauer, sondern läßt manche Laute gänzlich aus ("mim Boot" statt "mit dem Boot") oder ersetzt zwei aufeinanderfolgende durch einen dritten ("wir ham" statt "wir haben"). Solche Effekte sind in der artikulatorischen Sprachsynthese ohne weitere Regeln zur Systemsteuerung realisierbar.
Aus: Spektrum der Wissenschaft 12 / 1996, Seite 105
© Spektrum der Wissenschaft Verlagsgesellschaft mbH
Schreiben Sie uns!
Beitrag schreiben