Direkt zum Inhalt

News: Ein Weg, alles und jeden zu verstehen

Einen neuen Algorithmus für die Spracherkennung hat ein Bochumer Wissenschaftler entwickelt. Der Algorithmus kommt ohne großen Rechenaufwand aus und ermöglicht das Verstehen mehrerer Sprecher. Damit ist er anderen Entwicklungen einen entscheidenden Schritt voraus, die meist langes Training und die Beschränkung auf einen einzigen Sprecher benötigen, um zu zufriedenstellenden Ergebnissen zu führen.
Automatische Spracherkennung ist in aller Munde. Bereits jetzt kann man seinem Computer Briefe diktieren, ohne sie tippen zu müssen. In Zukunft werden viele neue Anwendungen hinzukommen, mit denen man zum Beispiel den Fernseher und die Waschmaschine per mündlichem Befehl bedienen kann. Bei diesen neuen Anwendungen kommt es entscheidend darauf an, daß sie möglichst preisgünstig zur Verfügung gestellt werden können. Die entsprechenden Algorithmen gibt es schon lange, bisher hatten sie aber einen entscheidenden Nachteil: Sie konnten nur einen einzigen Sprecher nach einer langen Trainingsphase verstehen. Bisher war es unrentabel, Geräte zu bauen, die jeden verstehen können, weil ihr Rechen- und Speicheraufwand ungleich höher ist als der sprecherabhängiger Geräte.

Dipl.-Ing. Mark Budde hat einen neuen Algorithmus entwickelt, der ohne großen Rechenaufwand das Verstehen mehrerer Sprecher ermöglicht. Seine in Zusammenarbeit mit der Siemens AG an der Fakultät für Elektrotechnik und Nachrichtentechnik der Ruhr-Universität Bochum angefertigte Diplomarbeit wurde ausgezeichnet und das Verfahren inzwischen in der Praxis angewandt. Der Wissenschaftler hat in seiner Arbeit untersucht, wie man einen Algorithmus, der die sprecherabhängige Erkennung ermöglicht, so abwandeln kann, daß er auch unterschiedliche Stimmen ohne vorheriges individuelles Training versteht. Während der Benutzer von sprecherabhängigen Systemen dem Gerät die Wörter nacheinander antrainieren muß, nutzt das sprecherunabhängige System ein Clusterverfahren: Alle eingegebenen Trainingsdaten werden gleichzeitig betrachtet und dann mit Hilfe unterschiedlicher statistischer Methoden sortiert. Aus den geordneten Daten schließt das System auf repräsentative Wortmuster, denen es später "gehörte" Wörter zuordnet.

Zur Unterscheidung ähnlich klingender Wörter hat Budde dem System zur sprecherunabhängigen Spracherkennung zwei Verfahren hinzugefügt: es clustert akustisch gleiche Wortteile verschiedener Wörter gemeinsam und verschiebt im Training solche Muster, die nah an der Grenze zweier Wortklassen liegen, zu der zutreffenderen Wortklasse hin. So konnte er die Unterscheidbarkeit optimieren. Versprecher beim Training und Hintergrundgeräusche filtert das System automatisch aus den zu clusternden Daten heraus. Bei einem Wortschatz von zwanzig Wörtern, die von verschiedenen Sprechern geäußert wurden, erreicht es so eine Erkennungsrate von 98 Prozent.

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.