Direkt zum Inhalt

Das Telephon als intelligenter Gesprächspartner


Jeder Mitspieler der Nordwestdeutschen Klassenlotterie kann nach der Ziehung eine Telephonnummer wählen und der sich meldenden Stimme seine Losnummer vorsprechen. Daraufhin erhält er in natürlicher Sprache Auskunft, ob – und wenn, wieviel – er gewonnen hat.

Hinter der Telephonstimme steckt ein Computer, der in diesem Falle von der Firma Dornier realisiert worden ist. Er kann nur die für einen solchen Dialog erforderlichen Wörter erkennen: die zehn Ziffern und einige Kommandowörter. Die Eingabe "einundzwanzig siebenundvierzig" statt "zwei eins vier sieben" ist also nicht vorgesehen. Doch diese Leistung muß das System erbringen, einerlei ob eine männliche oder eine weibliche, eine junge oder eine alte Stimme, hochdeutsch oder dialektgefärbt, die Wörter spricht.

Sprechende Auskunftssysteme sind nicht neu; schon Anfang der achtziger Jahre konnte man innerhalb des Ortsnetzes Frankfurt am Main Fahrplanauskünfte der Bundesbahn über das von Dornier und AEG gemeinsam realisierte System "Karlchen" einholen. Bei diesem zeitweise weltweit größten System mußte man allerdings alle Daten mühsam über die Wählscheibe beziehungsweise Tastatur des Telephons eingeben; die Auskunft wurde dann in natürlicher Sprache erteilt. Spracherkennende Systeme dagegen sind erst in jüngster Zeit zum praktischen Einsatz gekommen.

Heute gelingt die automatische Erkennung kleinerer Vokabularien von einigen zehn bis zu einigen hundert Wörtern auch für die Stimmen ungeübter Benutzer mit großer Zuverlässigkeit. Enorm gesteigerte Computerleistungen erlauben den Einsatz neuer Verfahren, die hauptsächlich auf den statistischen Eigenschaften unserer Sprache basieren. In der Trainingsphase sind gigantische Datenmengen auszuwerten: Hunderte oder gar Tausende sehr unterschiedlicher Sprecher müssen einen hinreichend repräsentativen Querschnitt aller Stimm- und Sprachvarianten liefern. Nur dann kann das System später fast jeden Sprecher erkennen.

Erst seit die Systeme solche Datenbasen nahezu automatisch analysieren können, ist diese Massenauswertung überhaupt möglich. Bis dahin mußte man mühsam sämtliche Sprachdaten – Laute, Wörter und Sätze – einzeln abhören und mit entsprechenden Marken versehen, die dem Computer signalisierten, mit was er gerade trainiert wurde. Inzwischen reicht es aus, dem Computer parallel zum gesprochenen Sprachsignal dessen geschriebene Darstellung zu liefern.

Aus dieser erzeugt man mit Hilfe von Regelsystemen eine phonetische Beschreibung für die Normaussprache sowie die üblichen Aussprachevarianten und aus dieser die entsprechenden Markow-Modelle für den Spracherkenner. Damit dient also die geschriebene Form als Basis für das Training. Dafür ist besondere Sorgfalt erforderlich; Schreib- oder Sprechfehler in diesem Stadium würden sich verheerend auswirken.

Für die Anwendung über das Telephon kommen noch weitere Schwierigkeiten hinzu: Die Qualität des Sprachsignals ist gering; über die Leitung wird wie bisher auch in absehbarer Zukunft nur ein kleiner, für die Verständlichkeit gerade ausreichender Teil des Frequenzspektrums übertragen (ungefähr 3 Kilohertz). Die Lautstärke schwankt stark, und wenn der Benutzer den Hörer unter das Kinn klemmt, wird das Sprachsignal verzerrt. Meistens erreicht aber ein Spracherkenner auch dann noch Erkennungsraten, die für kleine Vokabularien nur wenig unter 100 Prozent liegen.

Hin und wieder stößt das System allerdings auf Sprecher, deren stimmliche Charakteristika anscheinend im Trainingsmaterial nicht genügend berücksichtigt worden waren. Bei ihnen sinkt dann die Erkennungsrate möglicherweise auf 90 Prozent oder weniger ab. Dieses Problem soll schon bald durch adaptive Systeme gelöst werden, die sich sehr schnell – nach wenigen Wörtern – den spezifischen Eigenschaften der jeweiligen Stimme anpassen.

Dazu müssen im wesentlichen alle Eigenschaften der Markow-Modelle der einzelnen Wörter an die neue Stimme adaptiert werden. Wenn der Sprecher einigermaßen hochdeutsch spricht, kann sich die Anpassung auf die besonderen Frequenzeigenschaften seiner Stimme beschränken. Wenn er jedoch zum Beispiel regelmäßig "eens" oder "oans" statt "eins" sagt, sind weitergehende Maßnahmen erforderlich.

In jedem Fall muß für den Anpassungsprozeß, insbesondere für die Berechnung der Abweichungen von der Norm, bekannt sein, welches Wort gemeint war. Wenn das – gerade wegen der schlechten Aussprache – unsicher ist, muß das System unter mehreren möglichen Alternativen für das Wort versuchsweise diejenige auswählen, welche die beste Anpassung liefert, und sich notfalls sogar durch Rückfrage beim Sprecher vergewissern, ob es das Wort richtig erkannt hat. Wenn nicht, unternimmt es einen weiteren Optimierungsschritt.

Es ist bei allen solchen automatischen Adaptionsverfahren wichtig, die Parameter nicht zu weit in Richtung des soeben Gehörten zu verändern. Dadurch würde das System gleichsam diesen Einzelfall zur Regel erheben und beim nächsten Satz desselben Sprechers mit dieser – möglicherweise falschen – Hypothese scheitern.

Sehr stark durch Dialekt verfärbte Wörter sind auf diese Weise nicht mehr zu erfassen, sondern müssen als gänzlich neue Wörter aufgefaßt und gelernt werden. In ähnlicher Form versagt in der Regel auch unser menschliches Adaptionsvermögen.

Das Dialogsystem kann im Extremfall rückfragen oder sogar den Benutzer bitten, das zuletzt gesprochene Wort zu buchstabieren; damit erfährt es zumindest die Schreibweise eines neuen Wortes. Sofern dieses nach den üblichen Regeln ausgesprochen wird, läßt sich mit Hilfe eines entsprechenden Regelwerks seine Aussprache und damit das entsprechende Markow-Modell leicht ermitteln, und fortan gehört das Wort zum aktiven Wortschatz des Systems. Das ist allerdings – wie bei einem Menschen, der ein neues Wort lernt – nur dann sinnvoll, wenn auch die grammatische Funktion und die Bedeutung des neuen Wortes klar sind. Beim heutigen Stand würde das für Eigennamen gelten sowie für Synonyme, die ein Benutzer anstelle der im Dialog vorgesehenen und zulässigen Wörter verwendet.


Die Kunst der Dialoggestaltung

Ein geschickt aufgebauter Dialog trägt unter Umständen mehr zur Zufriedenheit des Benutzers bei als eine perfekt funktionierende Spracherkennung. In vielen Fällen kann das gesprächsführende Programm sogar einzelne Schwächen der Erkennung oder auch der Sprachausgabe kompensieren.

Es verwundert deshalb nicht, daß gerade die telephonischen Informationssysteme, deren Dialogablauf in enger Zusammenarbeit mit potentiellen Benutzern optimiert worden ist, zu den erfolgreichsten zählen. Sie enthalten in der Regel auch mehrere Dialogvarianten für mehr oder weniger erfahrene Systembenutzer.

Bei einfachen Systemen wie der erwähnten Lotterie- oder auch einer Fahrplanauskunft geht die Dialogführung immer vom System aus. Der Benutzer hat keine Chance, den Ablauf selbst zu bestimmen, sondern muß sich ebenso strikt an die Vorgaben halten wie der Benutzer heutiger menügesteuerter Computerprogramme.

Weiterentwickelte Systeme werden jedoch eine viel natürlichere Spracheingabe bis hin zu ganzen Sätzen verarbeiten können. Dann wird sich auch der Dialog zwischen Mensch und Maschine dem unter Menschen annähern.

Die wesentliche Aufgabe eines solchen Systems ist die Abbildung der menschlichen Dialogabläufe auf die maschinellen Möglichkeiten (Bild). Dazu gehören nicht nur die automatische Erkennung der menschlichen Sprache und das Synthetisieren einer sprachlichen Antwort, sondern auch das inhaltliche Verstehen und damit die Einbindung in den entsprechenden Wissenshintergrund von Mensch und Maschine.

Das System SUNDIAL (Speech Understanding and Dialogue), das wir im Rahmen des europäischen Forschungsprogramms ESPRIT in Zusammenarbeit mit Partnern aus Deutschland, Großbritannien, Frankreich und Italien entwickelt haben, realisiert erstmals einen solchen Ansatz. Es erteilt Verkehrsauskünfte in natürlicher Sprache und erkennt natürlich gesprochene Sätze. Der Benutzer hat damit viel Freiheit bei der Formulierung seiner Wünsche; er kann insbesondere einen Satz mit diversen Informationen befrachten: "Bitte geben Sie mir eine Zugverbindung erster Klasse mit Speisewagen morgen früh von München nach Dortmund." Bei heute noch üblichen Systemen würde der Computer völlig schematisch Begriffe wie "Abfahrtsort", "Zielort", "gewünschte Abfahrtszeit", "Wagenklasse", "Speisewagen" und so weiter nacheinander abfragen. SUNDIAL ist zwar von ungeübten Benutzern ausgiebig getestet, bisher jedoch noch nicht praktisch eingesetzt worden. Doch werden schon in Kürze wesentliche Elemente in neue telephonische Auskunftssysteme eingehen.


Sprachverstehen

Für die entscheidende neue Komponente, das inhaltliche Verstehen des Gesprochenen, hat die moderne Computerlinguistik in den letzten Jahren wesentliche Voraussetzungen geschaffen. Ein Mensch spricht nur in sehr seltenen Fällen schriftreif, und die klassischen Methoden der Computerlinguistik versagen bei unvollständigen oder grammatisch falschen Sätzen. Außerdem gelingt die maschinelle Erkennung der einzelnen Wörter eines flüssig gesprochenen Satzes weit schlechter als diejenige isolierter Wörter; das Programm muß dann zahlreiche Hypothesen für die Wörter des Satzes berücksichtigen. Erst die grammatische und inhaltliche Analyse engt die Auswahl mehr und mehr ein.

Wir gehen dazu von sogenannten Wortinseln aus. Das sind spezielle Wörter, die besonders sicher erkannt werden und gewissermaßen als Ankerpunkte für die weitere linguistische Verarbeitung dienen. Typischerweise handelt es sich um den Namen eines Reiseziels oder ein sonstiges bedeutungstragendes Element eines Informationswunsches, das ein Benutzer besonders deutlich auszusprechen pflegt. In einem Satz können sich dabei durchaus mehrere solcher Inseln finden, die letztlich zu einem inhaltlichen Ganzen zu verbinden sind. Die Technik dieser linguistischen Verfahren, die wir unter dem Begriff "Insel-Parser" zusammenfassen, hat die sprachverstehenden Systeme in den letzten Jahren deutlich vorangebracht.

Ergebnis der grammatischen und inhaltlichen Analyse ist eine Beschreibung des Informationswunsches in einer abstrakten Form. Sie ist das Material, mit dem die nächste, für den Dialog verantwortliche, Komponente des Systems arbeitet. Diese stellt einerseits die Verbindung zum Wissenshintergrund des Systems, also der Datenbank, her. Andererseits versucht sie, möglichst den gesamten bisherigen Gesprächsverlauf in seinen wesentlichen inhaltlichen Teilen zu speichern. Dieses sogenannte Dialogwissen ist letztlich entscheidend dafür, ob das System intelligent wirkt – und damit im Sinne des berühmten Turing-Tests (vergleiche Spektrum der Wissenschaft, März 1990, Seite 47) als intelligent anzusehen ist – oder nur ohne Rücksicht auf das bisher Gesprochene die jeweils letzte Frage beantwortet.

Von Dialogsystemen mit völlig natürlicher Sprache sind wir allerdings noch weit entfernt. Ein aktueller Forschungsgegenstand ist die Problematik der Spontansprache. Über die Unvollständigkeit und die grammatische Fehlerhaftigkeit von Sätzen hinaus geht es vor allem um die vielgebrauchten "äh" und "mh" sowie abgebrochene Wörter (vergleiche den folgenden Beitrag von Wolfgang Wahlster). Daß schließlich auch noch Hintergrundgeräusche das Sprachverstehen erschweren, sei hier nur am Rande erwähnt. Für die meisten dieser Probleme gibt es bereits erste Lösungen.


Intelligente Informationsnetze

Mit dem Schlagwort vom Telephon als einem intelligenten Gesprächspartner meinen wir die Gesamtheit aus Mensch-Maschine-Dialog und Hintergrundwissen. Erst durch eine umfangreiche Datenbasis und das darin gespeicherte Wissen wird der Dialog nützlich und attraktiv.

Durchsetzen werden sich allerdings nicht Informationssysteme, die nur mit einer einzigen Datenbank im Hintergrund arbeiten, sondern vernetzte Systeme. Oftmals kann der Benutzer vorab gar nicht genau wissen, welche Datenbank er in Anspruch nehmen will. Beispielsweise klärt sich erst im Verlauf eines Dialogs über eine geplante Urlaubsreise, ob er eine Bahn- oder eine Flugauskunft wünscht und von welcher Region ihn das Hotelverzeichnis oder eine Liste der Freizeitangebote interessiert. Ein entsprechendes System muß also intelligent genug sein, uns entsprechend unseren gesprochenen Wünschen fast automatisch durch all diese Informationsbereiche zu führen. Es wird dabei selbst entscheiden, aus welcher Quelle es die jeweilige Auskunft bezieht, und möglicherweise auch, welche mit Priorität auszugeben ist.

Mit heutigen Experimentalsystemen lassen sich bereits Dialoge verwirklichen, die zwar ein Vokabular von einigen tausend Wörtern benutzen, aber einstweilen noch grammatisch weitgehend richtige Sätze als Eingaben verlangen. Schon in naher Zukunft wird man auch manche Unkorrektheiten beherrschen. Damit werden sich die maschinellen Dialogsysteme immer mehr dem menschlichen Benutzer und seinem Verhalten anpassen.


Aus: Spektrum der Wissenschaft 3 / 1994, Seite 97
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.