Verblüffend naturalistisch: KI synchronisiert Lippen und Audio in Echtzeit

Eine neue KI verändert die Mundbewegungen eines Sprechers so, dass sie zu jedem beliebigen eingesprochenen Text passen. Das sieht erschreckend realistisch aus.

von Jan Dönges

Gesichter auf einem Tablet-PC — © FilippoBacci / Getty Images / iStock (Ausschnitt)

Spricht Angela Merkel akzentfrei englisch? Nein, was indische Forscher in einem Demo-Video zeigen, ist das Ergebnis einer cleveren künstlichen Intelligenz (KI). Sie haben mit Hilfe ihrer Software den Computer dazu gebracht, Videos wie das einer Ansprache Angela Merkels so zu manipulieren, dass die Lippen der Bundeskanzlerin sich perfekt synchron zur englischen Übersetzung einer Simultandolmetscherin bewegen.

Das Ergebnis sieht täuschend echt aus. Womöglich könnte eine solche Software auch dabei helfen, Filme und Serien in eine andere Sprache zu übertragen. Denn damit Sandra Bullock oder Bruce Willis in deutschen Wohnzimmern verstanden werden, passen Übersetzer bislang den deutschen Text streng an die Originalmundbewegungen an. Mit der KI wäre nun der umgekehrte Fall möglich: Das Videobild wird an den deutschen Text angepasst.

Wie das aussieht und funktioniert, zeigt ein Demovideo der Gruppe um Prajwal Renukanand und Rudrabha Mukhopadhyay vom International Institute of Information Technology.

So sieht das Ergebnis aus

Möglich macht es eine Kombination künstlicher neuronaler Netzwerke. Zwei davon spielen sozusagen die Rolle der Gutachter: Eines bemerkt, ob Sprache und Mund sich synchron bewegen, das andere, ob Videobilder echt oder manipuliert sind. Anschließend trainierten die Forscher ein drittes Netzwerk darauf, die beiden Gutachternetze hinters Licht zu führen. Es lernte dafür so lange, Videos passend zu einer Sprachaufnahme zu manipulieren, bis die beiden anderen Netze die von ihm erzeugten Videos für echt hielten.

Die Forscher haben neben Film und Übersetzung noch eine weitere Anwendung im Auge. Da die Manipulation in Echtzeit erfolgen kann, schlagen sie vor, Störungen bei der Videotelefonie mit Hilfe der KI zu glätten: Kann während eines Gesprächs zeitweise kein Bild übertragen werden, sondern nur Ton, könnte das System aus bereits empfangenen, alten Videopassagen und dem Liveton ein synthetisches Video zusammenstellen, in dem der Gesprächspartner einfach weiterplaudert.

Leider sind durch Techniken wie dieser auch der böswilligen Manipulation Tür und Tor geöffnet. Bereits in der Vergangenheit haben KI-Forscher Systeme entwickelt, mit denen jeder Videomaterial täuschend echt verändern und Politikern, Promis und anderen Personen Worte in den Mund legen kann. Im Unterschied zu diesen Ansätzen müssen dem neuen System laut Veröffentlichung der Wissenschaftler nicht einmal längere Videopassagen der Zielperson vorab zur Verfügung gestellt werden. Auch ihr Code ist frei downloadbar, eine Demo-Website findet sich hier. Bislang ist allerdings kein Fall bekannt, bei dem ein solches »Deep Fake« tatsächlich arglistig zur Täuschung eines größeren Publikums eingesetzt wurde.

Verblüffend naturalistisch: KI synchronisiert Lippen und Audio in Echtzeit

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Künstliche Intelligenz: Multitalent für Sprache

Deep Fakes: Mathematische Analyse soll alle Deep Fakes enttarnen

Animation: KI macht Computerspielfiguren zu Athleten

Themenkanäle

Informationstechnologie

Der digitale Mensch

Das Digital-Manifest

SponsoredPartnerinhalte