Das Lächeln, das man hören kann

News: Das Lächeln, das man hören kann

Der emotionale Zustand eines Sprechers kann vom Hörer erkannt werden. Unklar sind jedoch bis jetzt die akustischen Merkmale, die Angst, Freude oder Trauer ausdrücken. Wissenschaftler haben diese nun analysiert und übertragen sie weltweit erstmals auf eine Computerstimme.

Dass Scharping 1995 für die Kanzlerkandidatur gegen Lafontaine chancenlos war, hörte auch Walter Sendlmeier. Ihm drang noch etwas anderes ans Ohr, nämlich die Stimme Gerhard Schröders. Er attestierte ihr damals beste Zukunftschancen. Doch nicht aus politischem Interesse beschäftigte sich der Wissenschaftler mit den Parteitagsreden – ihm ging es vielmehr um die Analyse und Wirkung der Politikerstimmen. Der Kommunikationsforscher der Technischen Universität (TU) Berlin untersucht, wie man Basisemotionen – etwa Freude oder Angst – mit der Stimme ausdrückt und an welchen stimmlichen und sprecherischen Merkmalen ein Hörer diese Gefühlszustände erkennt. Unklar sind nämlich die akustischen Merkmale, anhand derer man erhört, ob Lafontaine ärgerlich, Scharping resigniert oder Schröder kämpferisch eingestimmt ist. Das Berliner Institut für Kommunikations-, Medien- und Musikwissenschaft ist dabei weltweit eine der wenigen Einrichtungen, die sich mit Emotionen im sprecherischen Ausdruck beschäftigen.

Während der Experimente mussten Schauspieler in einem Tonstudio inhaltlich neutrale Sätze in gelangweilter, trauriger, freudiger, ekliger, ärgerlicher und ängstlicher Ausdrucksweise vortragen. Ordneten mindestens 80 Prozent der Testhörer diese Sätze den richtigen Emotionen zu, dann wurde die gesprochene Sprache Silbe für Silbe untersucht. "Analysiert haben wir unter anderem die Tonhöhe, die Lautstärke, die Grundfrequenz der Stimme sowie das Sprechtempo und vor allem die Artikulationsgenauigkeit, die bisher kaum wissenschaftlich beachtet wurde", berichtet Sendlmeier.

Dabei kamen die TU-Wissenschaftler zu erstaunlichen Ergebnissen: Bei Ärger und Freude spricht man sehr schnell. Dabei liegt die Vermutung nahe, dass Wortsilben weg gelassen werden und eine unsaubere Aussprache entsteht. Doch das wird bei einem ärgerlichen Emotionszustand außer Kraft gesetzt: "Wir sprechen nicht nur schnell, sondern auch besonders deutlich. In diesem Zustand betonen wir sehr viele Silben, wodurch die einzelnen Laute eine Stärkung erfahren", erklärt der Wissenschaftler.

Bei Langeweile, Trauer oder Angst erkannte man das entgegengesetzte Phänomen: "Obwohl wir hierbei langsamer sprechen, artikulieren wir die Silben undeutlicher, da wir die Laute mit einem geringeren Öffnungsgrad des Unterkiefers erzeugen." Unser Körper zieht sich zusammen – vor lauter Angst bekommen wir die Zähne nicht auseinander. Hingegen bei Freude und bei Ärger schwingen unsere Arme, der Brustkorb wird nach vorn geschoben und ein "großer Mund" riskiert – die Worte werden dadurch viel deutlicher artikuliert.

Auch in der Tonhöhe ergeben sich markante Unterschiede. Bei Angstzuständen hebt sich die Stimme um etwa eine Oktave zu einer so genannten Falsettstimme; außerdem kommt es zu einer Monotonisierung der Satzmelodie. Die Ursache dafür ist in den Aktivitäten der Kehlkopfmuskeln zu sehen, deren Spannungszustände das Schwingungsverhalten der Stimmlippen (Stimmbänder) steuern. Bei Ärger klatschen sie viel abrupter zusammen als bei anderen Emotionen, wodurch mehr Energie in den höheren Obertönen entsteht. Diese Veränderung der Klangfarbe wird vom Hörer deutlich erkannt. Bei Trauer hingegen schwingen die Stimmbänder viel weicher und berühren sich oft nur teilweise. Die zwischen ihnen herausströmende Luft verwirbelt und eine rauschartige, behauchte Stimme entsteht.

Um ihre Ergebnisse zu überprüfen, programmieren nun die TU-Wissenschaftler Computerstimmen mit diesen Merkmalen. Erkennen dann die Testhörer die korrekten emotionalen Zustände, die in der synthetischen Stimme mitschwingen, "dann haben wir vermutlich die richtigen Indikatoren gefunden", so der Stimmforscher. Dass besonders Unternehmen der freien Wirtschaft an dem "Lächeln, das man hören kann" interessiert sind, zeigen die vielen Anfragen. Sie kommen vor allem aus den Bereichen der automatischen Spracherkennung und der Sprachsynthese.