Automatischer Stiltransfer: Computer macht E-Mails freundlicher
Statt »Können Sie mir die Daten schicken« vielleicht lieber »Könnten Sie mir bitte die Daten schicken«, statt »Machen Sie erst das Angebot fertig« lieber »Lassen Sie uns erst das Angebot fertig machen«: Mit freundlicheren Formulierungen gelingt die Kommunikation meist besser.
Was die meisten Menschen in ihrer Muttersprache – zumindest im Prinzip – ohne Weiteres beherrschen, stellt einen Computer vor größere Herausforderungen. Könnte eine KI jedoch aus einem vorgegebenen Satz eine freundlichere Variante ableiten, wäre viel gewonnen für die automatische Texterzeugung, für Chatbots oder andere Dialogsysteme. Um den Computer dazu in die Lage zu versetzen, haben Shrimai Prabhumoye von der Carnegie Mellon University nun eine umfassende Datenbank von Sätzen unterschiedlicherer Höflichkeit erstellt. Mit ihr konnten sie ein selbstlernendes System darauf trainieren, Sätze mit Elementen höflicher Sprache zu versehen.
Als eines von mehreren denkbaren Einsatzgebieten entwickelten sie die Vision eines E-Mail-Programms, das neutrale oder unhöfliche Sätze entdeckt und in der Art einer Rechtschreibprüfung markiert. Der Benutzer soll dann aus höflicher formulierten Vorschlägen den geeigneten auswählen können. Das erinnert an Systeme, wie sie etwa Google in seinem Maildienst integriert hat und die anhand der empfangenen Nachricht passende Antwortmöglichkeiten vorschlagen.
»Es geht dabei nicht nur darum, ein ›Bitte‹ oder ›Danke‹ anzuhängen«, sagt Prabhumoye in einer Pressemitteilung. Stattdessen müssen Sätze umformuliert werden. Zu Beginn habe das System das noch nicht berücksichtigt, erzählt die Forscherin, und einen Satz wie »Bitte bitte bitte bitte hilf mir« als besonders höflich eingestuft.
Ausgangspunkt für ihre Sammlung von Beispielsätzen waren eine halbe Million firmeninterne E-Mails des Unternehmens Enron, die im Zusammenhang mit einem Gerichtsverfahren veröffentlicht werden mussten. Daraus erzeugten Prabhumoye und Kollegen einen Datensatz von 1,39 Millionen Sätzen, die nach ihrem jeweiligen Höflichkeitsgrad katalogisiert sind. Wie sie dabei vorgegangen sind, wollen sie im Detail auf der Jahrestagung der Association for Computational Linguistics, die ab dem 5. Juli im Internet stattfindet, ihren Fachkollegen vorstellen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.