KI im Kino: Wie Deepfakes Hollywood revolutionieren könnten

KI-Bastler manipulieren Hollywood-Filme bereits jetzt nach Gusto. Die großen Studios tun sich noch schwer. Wenn die Technik einmal reif ist, wird sie das Kino für immer verändern.

von Thomas Brandstetter

Ist das Gesicht echt oder fake? — © VioletaStoimenova / Getty Images / iStock (Ausschnitt)

Als Hollywood in »Rogue One: A Star Wars Story« eine junge Carrie Fisher für einen kurzen Auftritt als Prinzessin Leia zurück auf die große Leinwand brachte, war das eine Sensation. Schließlich gilt die digitale Erzeugung menschlicher Charaktere als Heiliger Gral der visuellen Effekte. Um nur wenige Sekunden an überzeugendem Filmmaterial zu erzeugen, modellieren ganze Heerscharen von Animatoren monatelang ihren digitalen Ton – Bild für Bild und in mühevoller Kleinarbeit. Doch die Zeiten ändern sich. Heute stellen Youtuber wie Shamook ihre eigenen Kreationen online und suchen selbstbewusst den direkten Vergleich mit den teuren Hollywood-Produktionen. Für seine eigene Version von Prinzessin Leia benötigte Shamook, wie er schreibt, nichts weiter als einen PC, einige hundert Bilder von Carrie Fisher aus den alten »Star Wars«-Filmen und einen Tag Rechenzeit. Wer sich das Ergebnis ansieht, erahnt, dass Hollywood ein Paradigmenwechsel bevorsteht.

Videomanipulationen wie diese basieren auf der rasanten Entwicklung des maschinellen Lernens, einer Unterkategorie der künstlichen Intelligenz. Mittlerweile hat sich dafür die Bezeichnung »Deepfake« etabliert, ein Kunstwort, das sich aus der Tiefe der eingesetzten neuronalen Netzwerke und dem englischen Wort für Fälschung zusammensetzt. Die gängigste Spielart von Deepfakes sind »Face Swaps«. Dabei tauscht ein Algorithmus das Gesicht eines Schauspielers in einem Video Bild für Bild gegen ein anderes Gesicht aus, während die Mimik des Originals weitgehend beibehalten wird. Die Technik ist inzwischen so weit verbreitet und auch bereits so einfach zu bedienen, dass das Internet von Spaßvideos regelrecht überschwemmt ist. Wer also immer schon der Meinung war, dass Sylvester Stallone vielleicht doch der bessere Terminator gewesen wäre oder wer lieber Jim Carrey an Stelle von Jack Nicholson die Axt in »The Shining« schwingen sehen möchte, dem sei etwa der Youtube-Kanal »Ctrl Shift Face« empfohlen.

Für Face Swaps werden in der Regel künstliche neuronale Netze in Form so genannter Autoencoder eingesetzt. Sie lernen zunächst anhand möglichst vieler Bilder, ein Gesicht auf seine wesentlichen Merkmale zu reduzieren und anschließend daraus wieder das Original zu rekonstruieren. Bei Deepfakes soll das Original allerdings durch ein anderes Gesicht mit gleichem Gesichtsausdruck ersetzt werden. Vereinfacht gesagt erfolgt die Rekonstruktion des Bilds in diesem Fall mit einem anderen Netzwerk, das auf das neue Gesicht trainiert worden ist. Welche Merkmale genau das Netz in diesem Prozess als »wesentlich« betrachtet, entscheidet es allerdings selbst, und im Detail ist das für seine menschlichen Trainer oft gar nicht nachvollziehbar. Wichtig ist nur, dass es alle Gesichter auf das gleiche Set von Merkmalen reduziert. Denn bloß so kann es anhand der gewonnenen Daten ein anderes Gesicht mit dem exakt gleichen Gesichtsausdruck rekonstruieren.

Originale Fälschung und gedeepfakte Fälschung

Das Gesicht der jungen Prinzessin Leia entstand ausschließlich am Computer – mit enormem Aufwand. Bei kleineren Auflösungen geht es aber auch deutlich schneller und einfacher, der KI sei dank.

Für Hollywood birgt die Technik großes Potenzial, auch wenn die Qualität der automatisch generierten Face Swaps noch nicht ganz an die bisher eingesetzten, unter enormem Aufwand produzierten 3-D-Modelle heranreicht. Diese benötigen die Filmemacher beispielsweise dann, wenn in einer Rückblende ein Schauspieler jünger aussehen muss, als er ist, oder um in Actionszenen das Gesicht einer Stuntfrau nachträglich durch das einer Schauspielerin zu ersetzen.

James Dean kehrt zurück – aber noch ohne KI

3-D-Modelle helfen auch, um bereits verstorbene Stars wieder zurück auf die Leinwand zu holen. So hat etwa das Filmstudio Magic City Films angekündigt, eine Hauptrolle im Kriegsdrama »Finding Jack« mit James Dean zu besetzen. Da es von der bereits 1955 verstorbenen Hollywood-Legende jedoch nicht ausreichend hochwertiges Bildmaterial gibt, scheinen Deepfakes in diesem Fall ohnehin keine Option zu sein. Schließlich entspricht die Reduktion der Bilder auf ihre wesentlichen Merkmale einer Komprimierung der Originaldaten, bei der Details verloren gehen. Autoencoder sind dadurch zwangsläufig verlustbehaftete Werkzeuge. Um überzeugende Bilder generieren zu können, wäre also Ausgangsmaterial von sehr hoher Qualität nötig.

Unvergessen bleibt auch die »Wiederauferstehung« von Paul Walker, der vor Abschluss der Dreharbeiten zu »Fast & Furious 7« bei einem Autounfall verunglückte und dessen Gesicht für einige Szenen nachträglich in den Film eingefügt werden musste. »Da wurde ein riesiger Aufwand betrieben«, sagt Florian Gellinger, Mitbegründer des deutschen Visual-Effects-Studios Rise FX, das bereits an zahlreichen großen Hollywood-Produktionen beteiligt war. »In diesem Fall war es aber notwendig, weil der Film nun mal schon fast fertig war.«

Der Aufwand ist vor allem deshalb so hoch, weil unser Gehirn von Geburt an die Gesichter unserer Mitmenschen analysiert. Darum irritieren uns schon die kleinsten Ungereimtheiten – das Ergebnis wirkt diffus unheimlich, auch wenn wir vielleicht gar nicht in der Lage sind, den Fehler genau zu benennen.

Wer Deepfakes nutzt, gibt Kontrolle ab

Wenn große Filmstudios menschliche Gesichter digital am Computer erzeugen, gehen sie in der Regel von einem 3-D-Modell des Kopfs aus, gefolgt von viel »Handarbeit« in Form einer kompletten Simulation der Gesichtsmuskeln bis hin zur Reflexion des Lichtes an den Augäpfeln. »Fürs Kino werden künstliche Charaktere oft von Grund auf aus ›digitalem Ton‹ modelliert«, sagt Gellinger. »Dabei denken sich die Animatoren Emotionen, ein kurzes Zwinkern oder das leichte Kleben der Mundwinkel einfach aus.« Da sich dabei auch immer wieder Unstimmigkeiten einschleichen, kann es jetzt schon von Vorteil sein, zur groben Orientierung ein Deepfake-Video als Vorlage zu erstellen – so geschehen etwa bei »Terminator: Dark Fate«, wo für eine anfängliche Rückblende jüngere Versionen von Schwarzenegger und Co benötigt wurden.

Jim Carrey ersetzt Jack Nicholson

Der Youtuber Ctrl Shift Face hat hier das Gesicht von Jack Nicholson in »The Shining« durch das von Jim Carrey ersetzt.

Wenn Hollywood also bereits heute Deepfakes einsetzt, dann dienen sie lediglich als Konstruktionshilfe und sind später nicht auf der Leinwand zu sehen. Dennoch lohnt es sich dem Experten zufolge ohnehin nur in Ausnahmesituationen, menschliche Charaktere künstlich zu erzeugen. »Das ist immer mit enormem Aufwand verbunden, und man kommt auch nie ganz auf die gleiche Qualität«, sagt Gellinger. Schließlich können bloß echte Schauspieler in Interaktion mit ihren Kollegen und dem Regisseur verschiedene Nuancen der Darstellung durchspielen und so in einem gemeinsamen, kreativen Prozess die Inszenierung optimieren.

Auch für Volker Helzle, den Leiter für Forschung und Entwicklung am Animationsinstitut der Filmakademie Baden-Württemberg, haben Deepfakes im Kino noch keinen Platz. »Im Film geht es darum, die kreative Kontrolle über die künstlichen Charaktere zu behalten. Und da bieten Deepfakes nur wenig Möglichkeiten.« Schließlich wolle man jederzeit in der Lage sein, in die Mimik einzugreifen, um die entscheidenden Akzente zu setzen. Deshalb hat Helzle gemeinsam mit seinem Team eine eigene Methode entwickelt, um effizient und schnell einen realistischen Gesichtsausdruck zu generieren.

Dem Ansatz liegt ein altbewährtes Konzept der Psychologie aus den späten 1970er Jahren zu Grunde. Das so genannte »Facial Action Coding System« ordnet verschiedenen Gesichtsausdrücken Bewegungen bestimmter Muskelgruppen zu. So kann etwa Freude durch ein Anheben von Wangen und Mundwinkeln ausgedrückt werden, während sich bei Wut die Augenbrauen zusammenziehen. »Letztendlich steht dem Animator eine Klaviatur von Schiebereglern zur Verfügung, um 120 verschiedene Parameter einzustellen und den gewünschten Gesichtsausdruck zu erzeugen«, erklärt Helzle. So kann ein 3-D-Modell erzeugt werden, das dann in Handarbeit bis zur Perfektion verfeinert und schließlich über das gefilmte Gesicht eines echten Schauspielers gelegt wird.

Dank Disney in Hochauflösung?

Soll aber etwa nur die angespannte Mimik eines Stuntmans während einer Actionszene mit dem Gesicht des Hauptdarstellers überlagert werden, spielen kreative Kontrolle und künstlerische Gestaltungsmöglichkeiten eine untergeordnete Rolle. Dass sich auch hier Deepfakes noch nicht durchgesetzt haben, liegt vor allem an der mangelnden Auflösung von Face Swaps. Hier könnte nun eine neue Technik für Abhilfe sorgen, die Disney Research Studios in Zusammenarbeit mit der ETH Zürich entwickelt und diesen Sommer am »Eurographics Symposium on Rendering« in London der Öffentlichkeit präsentiert hat.

Ein modellierter Albert Einstein

Für diese Aufnahmen hat das Animationsinstitut der Filmakademie Baden-Württemberg den großen Physiker wiederauferstehen lassen. Dazu wurden sein Kopf und Gesicht als 3-D-Modell per Hand animiert. Das Ergebnis: zum Beispiel dieser Kurzfilm.

Den Forschern ist es gelungen, erstmals automatische Face Swaps mit Megapixelauflösung zu generieren. Darüber hinaus konnten sie störende Artefakte wie Zitter- und Wackeleffekte minimieren, die die Ergebnisse anderer Algorithmen oft noch als Fälschungen enttarnen. Und auch wenn die Qualität weiterhin nicht ganz den extrem hohen Ansprüchen einer Hollywood-Produktion entsprechen mag, zeigt die Arbeit doch, wie schnell sich die Technik entwickelt. Und vor allem das Engagement von Disney lässt vermuten, dass es nur eine Frage der Zeit ist, bis wir Deepfakes im Kino zu sehen bekommen werden. Womöglich werden mit Hilfe solcher Technologien sogar irgendwann Filme gleichzeitig in unterschiedlichen Besetzungen für unterschiedliche Zielgruppen produziert.

Und auch synchronisierte Filme, in denen die Lippenbewegungen der Schauspieler nicht so recht zu den gesprochenen Worten passen, könnten schon bald der Vergangenheit angehören. Mit der Software Face2Face etwa können Mimik und Lippenbewegungen einer Person in Echtzeit auf das Gesicht einer anderen Person übertragen werden, ganz so, als würde ein Puppenspieler eine Marionette steuern. Dazu reicht es, den »Puppenspieler« während des Sprechens mit einer handelsüblichen Webcam zu filmen. Die »Marionette« dagegen muss, bevor es losgehen kann, anhand eines kurzen Videos analysiert werden. Nur so kann die Software ein 3-D-Modell des Gesichts erstellen und die verschiedenen Mundbewegungen lernen, die sie dann während des Puppenspiels zeigen soll. »Das lässt sich alles mit einem herkömmlichen Gamer-PC inklusive vernünftiger Grafikkarte bewerkstelligen«, erklärt Justus Thies, der im Rahmen seiner Doktorarbeit den Grundstein für die Software gelegt hat und heute seine Arbeit in der Visual Computing Group der Technischen Universität München weiter verfolgt.

David Beckham spricht neun Sprachen

... wenn die Technik sie ihm in den Mund legt. Das kurze Originalvideo einer Malariastiftung zeigt, was mit künstlich intelligenter Bildbearbeitung möglich ist.

Täuschend echte Stimmen – aus dem Computer

Die wichtigste Anwendung seiner Methode sieht der Forscher im »Virtual Dubbing«, bei dem die Lippenbewegungen eines Schauspielers an die Audiospur eines Synchronsprechers angepasst werden. Das Ergebnis lässt sich etwa in einem Videoclip von David Beckham bewundern, in dem er in neun verschiedenen Sprachen zum Kampf gegen Malaria aufruft. Wer den Fußballpromi kennt, weiß natürlich, dass das nicht ohne technische Unterstützung entstanden sein kann – der Videoclip wurde mit einer Software kreiert, die auf Face2Face aufbaut. Auf ähnliche Art könnten in Zukunft die Lippenbewegungen von Filmschauspielern an die Tonspur der Synchronfassung angepasst werden.

Mit der Methode »Neural Voice Puppetry«, die Thies und seine Kollegen Anfang 2020 vorgestellt haben, funktioniert das in einfachen Fällen sogar bereits auf Knopfdruck: Die Software analysiert eine beliebige Sprachaufnahme und passt die Lippenbewegungen einer Zielperson automatisch an die Worte an. Um den Qualitätsansprüchen und der hohen Auflösung der großen Leinwand gerecht zu werden, müssten die Algorithmen allerdings noch weiter verfeinert werden.

Ein computergenerierter Schauspieler braucht auch eine Stimme. In den meisten aktuellen Deepfakes ist einfach die des Originals zu hören, oder sie stammt von einem menschlichen Stimmenimitator. Doch auch hier ist künstliche Intelligenz im Begriff, die Oberhand zu gewinnen. In den 1980er Jahren wurde noch versucht, die Sprachproduktion mit rechnerischen Modellen nachzubilden, das Ergebnis hatte den typisch blechernen Computerstimmen-Klang. Später ging man dazu über, etwa für Durchsagen auf Bahnhöfen Sprachsamples in ihre Einzelteile zu zerschnippeln und Laut für Laut oder Silbe für Silbe zu neuen Worten und Sätzen zusammenzufügen. »Heute benutzen wir zur künstlichen Erzeugung von Sprache ähnliche Machine-Learning-Ansätze wie in der Bildverarbeitung«, sagt Björn Schuller, Professor an der Universität Augsburg und Gründer des Start-ups Audeering, das sich mit der automatischen Analyse von Sprache beschäftigt. Während vor einigen Jahren die großen Innovationen noch im Audiobereich stattfanden, weil die Rechenleistung für die Bildbearbeitung gefehlt hat, sei es heute umgekehrt: Nun würden die Deepfake-Technologien aus der Videomanipulation für die Stimmerzeugung übernommen.

Nach den Prinzipien von Imitation und Mustererkennung trainieren die Algorithmen anhand unzähliger Sprachproben, Laute zu bilden. So können sie Stimmen imitieren oder völlig neue Stimmen erzeugen. Die KI lernt nicht bloß, Texte mit der Stimme eines bestimmten Menschen aufzusagen. Lässt man sie nur genügend Aufnahmen von fröhlichen Menschen hören, wird sie auch erkennen, was Fröhlichkeit ausmacht, und kann diese dann auf die eigene Stimme übertragen. Das Gleiche gilt für Eigenschaften wie Alter, Geschlecht oder Körpergröße eines Sprechers. »Die Ergebnisse sind mittlerweile so gut, dass sie von Menschen kaum noch als Fälschungen erkannt werden können«, sagt Schuller. Der Weg zum kompletten Deepfake-Schauspieler scheint also bereits geebnet zu sein.