Sprache - abgesehen von den Lippen
Ein an der Technischen Universität Berlin entwickeltes Animationsprogramm erzeugt Trickfilme der sichtbaren Artikulationsbewegung beim Sprechen, die Hörbehinderte helfen können, das Lippenlesen zu erlernen.
Etwa vier Promille der Menschen in den industrialisierten Ländern sind gehörlos geboren oder ertauben im Laufe ihres Lebens, beispielsweise infolge einer Ohrenerkrankung, einer Operation oder eines Unfalls. Im Extremfall sind sie zur verbalen Verständigung mit Normalhörenden völlig auf das Absehen der Sprechbewegungen angewiesen. Diese Fähigkeit müssen sie aber erst mühsam erlernen.
Seit einigen Jahren untersucht eine Arbeitsgruppe an der Technischen Universität Berlin den Zusammenhang zwischen den Lautfolgen vorgegebener Texte und den zugehörigen sichtbaren Artikulationsbewegungen typischer Sprecher. Als Ergebnis entstand der Prototyp eines Animationsprogramms, das realistische Bewegungen eines abstrahierten, zweidimensionalen Sprechergesichts auf einem Computerbildschirm erzeugt und als Trainingsgerät zum Erlernen und Üben des Absehens dienen soll. Es kann den Lehrbetrieb in Schulungsstätten unterstützen und intensivieren und ermöglicht als zusätzliche Form des dringend nötigen Einzelunterrichts das Selbststudium am Gerät.
In Analogie zu den Phonemen der Sprache lassen sich auch kleinste sprecherunabhängige Einheiten der sichtbaren Sprechbewegungen bestimmen. Diese Kineme (englisch visemes) bilden gewissermaßen die Grundbausteine der visuellen Sprache, die Hörgeschädigte bei der Kommunikation mit Normalhörenden entschlüsseln müssen.
Nun sind Sprechbewegungen allerdings viel mehrdeutiger als die zugehörigen akustischen Sprachsignale. So ergeben Laute mit identischer Artikulationsstelle – beispielsweise b und p oder d und t – gleiche oder sehr ähnliche Mundbilder (Bild 1). Im hinteren Mundraum gesprochene Laute wie g, k und ng bleiben im Absehbild oft sogar vollständig verdeckt. Deshalb kann nicht jedem Einzellaut ein eindeutiges Mundbild zugeordnet werden. Außerdem hängt die Mundstellung sehr stark von den Nachbarlauten ab; man spricht von Koartikulation. Beispielsweise ist der Abstand der Mundwinkel bei dem Reibelaut f in dem Wort "Hafen" wegen des vorausgehenden weiten Vokals a relativ groß, in dem Wort "Ofen" dagegen ziemlich klein. Hörbehinderte müssen also statt einzelner Laute sehr komplexe Lautverbindungen in Form von Bewegungsgestalten von den Lippen ablesen.
Für die Datenerhebung haben wir das Gesicht eines klar artikulierenden Sprechers auf Videoband aufgenommen. Die Lippen und einige Fixpunkte auf Stirn und Nase sowie im Kinnbereich wurden mit fluoreszierender Farbe markiert, damit bei Beleuchtung mit UV-Licht ein deutlicher Kontrastsprung an den Markierungsgrenzen entstand. Dies erleichterte die automatische Kontursuche bei der anschließenden Analyse der Aufnahmen durch einen Computer.
Um den Einfluß der Nachbarlaute auf das Absehbild zu berücksichtigen, wurden die gesprochenen Worte in sich überlappende lautliche Zweiersequenzen oder Diphone zerlegt – bei dem Wort "Paris" zum Beispiel in pa, ar, ri und is. Für jeden der beiden Einzellaute des Diphons griffen wir innerhalb des zugehörigen Bewegungsablaufs jenen Moment heraus, in dem das Absehbild besonders charakteristisch war. An dieser Momentaufnahme erfaßten wir eine Reihe typischer visueller Merkmale wie beispielsweise den Mundwinkelabstand. Für jeden Laut des Textes wurde der Satz von Merkmalen (mathematisch ein Vektor) anschließend automatisch klassifiziert und ausgewertet sowie in Abhängigkeit von den beiden unmittelbaren Nachbarlauten sortiert. Durch Bildung repräsentativer Merkmalsvektoren ergab sich eine Anzahl charakteristischer Mundbilder, die das Gerüst für die Trickfilmberechnung im Animationsprogramm abgeben.
Selbstverständlich kann immer nur ein sehr kleiner Ausschnitt des prinzipiell möglichen Sprachmaterials analysiert werden. Wir benutzten 470 im Deutschen häufig vorkommende Einzelwörter. Bei der Sprachsynthese mit beliebigem Wortschatz müssen die gewonnenen Ergebnisse dann auf neue Wörter verallgemeinert werden.
Die von uns entwickelte Version des Animationsprogramms ist auf handelsüblichen Kleinrechnern (IBM-kompatiblen PC und Atari ST) implementiert und gibt die Bewegungen eines schematischen Gesichts zweidimensional wieder. Das Vokabular ist nicht beschränkt, und der Text wird in einer phonematischen Umschrift eingegeben, die sich an die Phonemstruktur des Deutschen anlehnt, wie sie beispielsweise im "Duden" angegeben ist.
Die Trickfilme stützen sich auf 38 Schlüsselbilder, welche aus der Video-Analyse gewonnen wurden (Bild 2). Sie werden gemäß der eingegebenen Lautfolge nach einer Diphontabelle ausgewählt. Um die Illusion eines flüssigen Bewegungsablaufs zu vermitteln, berechnet der Computer jeweils eine Reihe von Zwischenbildern. Zur zeitlichen Feinabstimmung wird jedem Einzelbild außerdem eine charakteristische Standzeit auf dem Bildschirm zugeordnet.
Es können sowohl einzelne Wörter als auch ganze Textabschnitte eingegeben werden. Die maximale Länge eines Textes hängt lediglich vom Arbeitsspeicher des verwendeten Rechners ab; bei der üblichen Speichergröße von einem Megabyte lassen sich Texte mit bis zu 32 Einzellauten darstellen.
Um das Training nach Schwierigkeitsstufen oder speziellen Problemfeldern aufzubauen, kann der Benutzer (Lehrer oder Schüler) die Lektionen einzeln zusammenstellen. Das Sprechtempo läßt sich in mehreren Stufen variieren, und auf Wunsch werden zusammen mit dem Gesicht Informationen über die Stimmhaftigkeit und die Betonung von Lautsequenzen dargestellt.
An der Schwerhörigenschule in Gotha (Thüringen) wurde das Animationsprogramm mit 14- bis 16jährigen Kindern in einem zweiwöchigen Intensivtraining getestet. In dieser Zeitspanne verbesserte sich die Trefferquote beim Absehen längerer Einzelwörter auch von einem natürlichen Sprecher im Durchschnitt um etwa 15 Prozent. Die meisten Kinder zeigten sich sehr motiviert im Umgang mit dem Rechner. Der Einsatz eines solchen Absehtrainers verspricht deshalb eine Intensivierung des Unterrichts.
Die bisherige Arbeit wird in einem im März 1991 an der Technischen Universität Berlin neu eingerichteten interdisziplinären Forschungsprojekt unter Mitwirkung von Linguisten und Rehabilitationswissenschaftlern fortgeführt. Unter der Gesamtleitung von Dietrich Naunin, Geschäftsführendem Direktor des Instituts für Elektronik, wurde eine Gruppe mit acht festangestellten Mitarbeitern aufgebaut. Erstmals ist an einem solchen Projekt auch die Humboldt-Universität beteiligt. Der wissenschaftliche Kontakt zu Gerhart Lindner, der dort eine Professur für Hörgeschädigtenpädagogik und Phonetik innehatte (inzwischen ist er emeritiert) und über große Erfahrung in der visuellen Sprachperzeption und der Rehabilitation Hörbehinderter verfügt, entstand unmittelbar nach Öffnung der Berliner Mauer im Januar 1990 und hat sich seither zu einer engen Kooperation ausgeweitet.
Der künftige Syntheserechner soll Gesichter in quasi-dreidimensionaler Darstellung zeigen können. Außerdem entwickeln wir ein verbessertes Sprechmodell, in das Bewegungsabläufe für ganze Silben integriert werden sollen, um bestimmte fehlerhafte Bewegungen zu eliminieren, die derzeit noch in manchen Fällen auftreten. Dazu werden auch die Möglichkeiten des Analyserechners erweitert.
Aus: Spektrum der Wissenschaft 11 / 1993, Seite 23
© Spektrum der Wissenschaft Verlagsgesellschaft mbH
Schreiben Sie uns!
Beitrag schreiben