Direkt zum Inhalt

Künstliche Intelligenz: Wie KI einen Menschen kopiert

Am Max-Planck-Institut für Informatik in Saarbrücken entstehen mittels KI realistische 3-D-Avatare von Menschen. Diese digitalen Doppelgänger könnten die medizinische Diagnostik revolutionieren – bergen aber auch Gefahren. Ein Besuch vor Ort.
Eine Frau steht in einer Lightstage
Um eine digitale Kopie eines Menschen erstellen zu können, muss man zunächst Daten sammeln. Dabei hilft die kugelförmige »Lightstage«.

Völlige Isolation. Dieses Gefühl vermittelt das Innere der 3,5 Meter hohen Kugel am Max-Planck-Institut für Informatik in Saarbrücken. Von hier ist die Außenwelt kaum noch wahrnehmbar. Gleißend helle Lichter rauben die Sicht; insgesamt 13 000 LEDs scheinen aus allen Raumrichtungen auf mich. »Gerade laufen sie mit nur fünf Prozent der möglichen Leistung«, erklärt der Informatiker Marc Habermann, der neben mir steht. Und stellt mit einem Zusatz mein Vertrauen gleich auf eine weitere Probe: »Wenn wir sie voll aufdrehen, erblindet man.« Er gibt eine Anweisung an einen Kollegen, den wir nicht sehen, obwohl er nur wenige Meter von uns entfernt steht – irgendwo hinter den grellen Lichtern. Plötzlich tanzen lauter bunte Lichtpunkte um uns herum. Meine Augen entspannen sich. »Die Lichtverhältnisse sind jetzt exakt so wie nachmittags in der Grace Cathedral in San Francisco«, erläutert Habermann. Und tatsächlich: Mit etwas Fantasie kann man sich vorstellen, dass die farbenprächtigen Reflexionen auf seinem Gesicht von Sonnenlicht stammen, das durch kunstvolle Buntglasfenster dringt.

Eine solche »Lightstage« findet man sonst vor allem in Filmstudios. Der kugelförmige Käfig kann jede erdenkliche Beleuchtungssituation nachahmen. Neben den LEDs sind außerdem 60 hochauflösende 6K-Kameras angebracht, die eine Person in den gewünschten Lichtverhältnissen aus verschiedenen Perspektiven fotografieren und filmen können. In Hollywood stellen sich Schauspieler wie Brad Pitt oder Natalie Portman hinein, damit sich die Licht- und Schattenspiele der Grace Cathedral – oder irgendeines anderen Ortes – in ihrem Gesicht abzeichnen, ohne dass sie jemals dort waren.

Habermann ist kein Filmemacher. Die Forschungsgruppe um ihn und den Informatiker Christian Theobalt hat die Lighstage aus einem anderen Grund vom Visuals and Graphics Lab der University of Southern California gekauft: »Wir wollen damit unsere KI-Modelle trainieren«, erklärt er. Gemeinsam mit seinen Kolleginnen und Kollegen am Max-Planck-Institut entwickelt er Computerprogramme, die realistische Abbilder der Realität erzeugen – und nicht nur das. Die Maschinen sollen ein visuelles Verständnis erlangen. Aus aufgenommenen Bildern sollen Algorithmen alle Eigenschaften einer Szene erfassen, von der Geometrie und der Beschaffenheit der gezeigten Objekte bis zur Position und Art der Lichtquelle. Computer sollen künftig wie das menschliche Gehirn verstehen, dass sich eine Pflanze vor einer Couch befindet und Licht von einer Deckenlampe darauf leuchtet. Ziel ist es, dass die Algorithmen dadurch auch aus sehr rudimentären Daten möglichst viele Informationen ableiten können. Irgendwann soll sich jeder Nutzer mit einer einfachen Webcam oder einem Handy in einer virtuellen Welt bewegen können.

Den Forschenden geht es aber nicht darum, dass eine Person in ihrem Wohnzimmer Hollywoodproduktionen nachspielt, zumindest nicht nur. Neben der Unterhaltungsindustrie haben digitale Avatare gerade im medizinischen Bereich nützliche Anwendungsmöglichkeiten: So lassen sich durch Filmaufnahmen ohne viel Aufwand Bewegungsmuster untersuchen, um etwa bei Säuglingen nicht invasiv neurologische Erkrankungen frühzeitig zu erkennen, Sportlern zu Höchstleistungen zu treiben oder Verletzungen zu diagnostizieren. Auch in der Psychologie werden realistische 3-D-Modelle von Personen verwendet, um die Wahrnehmung des eigenen Körpers zu untersuchen.

Lightstage | Eine solche Kugel ermöglicht es den Forschenden am Max-Planck-Institut in Saarbrücken, verschiedene Lichtverhältnisse zu simulieren.

Forschungsgruppen und Unternehmen auf der ganzen Welt versuchen, Computern das Sehen beizubringen. »Die Forschung in Deutschland ist in diesem Bereich schon ziemlich gut aufgestellt«, sagt der Informatiker Matthias Nießner von der TU München. »Mit Saarbrücken, Tübingen und München haben wir sehr starke Standorte, die international definitiv in der ersten Liga mitspielen.«

Die Forschungsgruppe um Nießner modelliert menschliche Gesichter enorm detailgetreu – lediglich anhand einfacher Videoaufnahmen. Forschende um Michael Black vom Max-Planck-Institut für Intelligente Systeme in Tübingen sagen die genaue Lage der Knochen im menschlichen Körper mit Hilfe von Bildern voraus. Und das Team um Theobalt und Habermann hat im Jahr 2023 ein Computerprogramm vorgestellt, das aus Aufnahmen von nur vier einfachen Kameras den digitalen Avatar einer Personen in Echtzeit steuern und durch eine virtuelle Umgebung bewegen kann.

Digitales Abbild | Die Forschenden in Saarbrücken können mit Hilfe der gesammelten Daten ein dreidimensionales digitales Abbild einer Person erstellen.

Doch all diese technischen Errungenschaften bergen auch Gefahren: So wird es immer einfacher, realistische Fälschungen von Videoaufnahmen zu erstellen. Viele Institutionen wie das Bundesamt für Sicherheit in der Informationstechnik warnen vor der Verbreitung von Desinformation durch Deep Fakes, da diese unsere Demokratie gefährden könnte.

Ein möglichst realistisches Selbstbild erschaffen

In einem Meetingraum des Max-Planck-Instituts in Saarbrücken beginnt die Präsentation des KI-Forschers Habermann mit einem überraschenden Bild: Höhlenmalereien. Die mehr als 50 000 Jahre alten Farbkleckse belegen, so der Informatiker, dass Menschen seit jeher versuchen, sich selbst abzubilden. Im Lauf der Zeit wurden sie immer besser; die einfachen Zeichnungen entwickelten sich weiter, bis große Künstler wie Leonardo da Vinci in der Renaissance nahezu fotografische Porträts wie die »Mona Lisa« anfertigten. Mit der Erfindung der Fotografie machte die Menschheit einen riesigen Sprung nach vorn. Kameras ermöglichten es fortan, Szenen exakt abzubilden. Inzwischen besitzen die meisten Menschen ein Smartphone, das jederzeit jeden Moment festhalten kann – und das in einer extrem guten Qualität. So beeindruckend diese Entwicklung auch ist: Eine Kamera erzeugt immer nur ein zweidimensionales Abbild unserer dreidimensionalen Welt. Forschende auf der ganzen Welt arbeiten daran, Maschinen die Informationen aller drei Raumdimensionen zu vermitteln.

Unser Gehirn kann das ohne Probleme. Aus einem einzelnen Bild leiten wir sofort die Geometrie und Lichtverhältnisse einer Szene ab. Wir können benennen, welche Objekte darauf festgehalten sind, wo sie sich befinden und welche Entfernung sie zueinander haben. Meist gelingt es uns sogar, die Beschaffenheit der Gegenstände grob zu bestimmen, etwa ob sie metallisch glänzen oder das Licht diffus streuen wie die Haut.

Habermann und sein Team wollen Computern ein solches visuelles Verständnis beibringen. Eng damit verbunden ist das Vorhaben, möglichst realistische Modelle – etwa einer Person – in einer virtuellen Umgebung zu erzeugen. »Die größten Fortschritte in dem Bereich ermöglichen die Entwicklungen der künstlichen Intelligenz«, sagt Habermann. »Insbesondere neuronale Netze sind der Schlüssel zum Erfolg.«

»Was ich nicht erschaffen kann, verstehe ich nicht«Richard Feynman, theoretischer Physiker

Um ein 3-D-Modell einer Person zu erstellen, sind drei Schritte nötig. Zunächst erfassen Kameras oder Sensoren die äußere Erscheinung und Bewegungen. Anschließend werden diese Daten analysiert – ein Computerprogramm leitet die geometrischen Zusammenhänge, die Beleuchtungssituation sowie weitere Informationen aus dem Bildmaterial ab. Im letzten Schritt erzeugt der Rechner auf Basis dieser Zusammenhänge ein möglichst realistisches digitales Abbild, einen Avatar, der sich in einer virtuellen Umgebung steuern lässt.

Bis ein Computerprogramm dazu in der Lage ist, sind viel Arbeit und Zeit sowie eine enorme Menge an Messdaten nötig. Dafür sind die Forschenden auf Hightech-Geräte angewiesen. »Mit den hochqualitativen Daten trainieren wir große KI-Modelle. Ein Endverbraucher kann die Programme dann mit spärlicher Ausstattung nutzen«, sagt Habermann. Die KI-Algorithmen sollen anhand der Daten aus dem Labor lernen, wie unsere Welt aussieht. Hat man ein solches Programm erfolgreich trainiert, lassen sich neue Szenen mit nur wenigen Zusatzinformationen erfassen. Das kennt man von ChatGPT: Bei der Nutzung genügt es, einen kurzen Prompt einzugeben. Während des Trainings war die KI aber auf mehrere Terabyte an Daten angewiesen. Ähnlich funktioniert auch unser Gehirn: Es hat ein Leben lang beobachtet, wie sich Dinge bewegen und wie Objekte in verschiedenen Beleuchtungssituationen aussehen. Wenn wir nun eine Szene sehen, verstehen wir meist sofort, was sich im Dreidimensionalen abspielt.

Virtuelle Körper, reale Einsichten

Ein solches Anwendungsgebiet hätte er sich nie träumen lassen, erzählte Michael Black vom Max-Planck-Institut für Intelligente Systeme in Tübingen dem US-amerikanischen Unternehmer Gil Elbaz im Podcast »Unboxing AI«. Black arbeitet seit mehreren Jahrzehnten im Bereich der so genannten Computer Vision (computerbasiertes Sehen). Insbesondere interessieren ihn Körperformen. Unter anderem arbeitet er mit der US-Firma Amazon an einem Projekt, bei der Personen ein Foto hochladen können und so Kleidungsvorschläge erhalten, die zu ihrer Figur passen. Damit spare man sich den lästigen Gang in ein Geschäft oder dort zumindest in die Umkleidekabine. Black weiß, wovon er spricht. »Ein Grund, weshalb ich nach Deutschland auswandern musste, liegt an meiner Körperform: Ich bin ziemlich groß und schlaksig, so dass ich in den USA nie passende Kleidung finde«, sagte er und lachte.

Doch dann, im Jahr 2018, wollten Medizinerinnen und Mediziner die von ihm verwendeten Systeme nutzen, um Säuglinge genauer zu untersuchen. »Es ist schwierig, Körperscans von Säuglingen zu machen – sie halten nur selten still«, erklärte Black. Hintergrund der ungewöhnlichen Anfrage war die Hoffnung, neurologische Entwicklungsstörungen frühzeitig zu erkennen. Die Forschenden begannen, ein KI-Programm mit Videoaufnahmen von kranken und gesunden Kindern zu trainieren, damit es anhand der Bewegungen eines Säuglings auf mögliche Beeinträchtigungen schließen kann. Inzwischen erfasst ihr System die Pose und Gestalt der Kinder mit einer Genauigkeit von bis zu 2,5 Millimetern – und kann so das Fachpersonal in Kliniken unterstützen.

Diagnose bei Säuglingen
Das Forschungsprojekt SMIL soll es ermöglichen, neurologische Erkrankungen bei Säuglingen frühzeitig zu erkennen.

Auch in der Psychologie erweist sich die Forschung als nützlich, etwa bei gestörter Körperwahrnehmung. »Wenn Menschen über Anorexia nervosa nachdenken, stellen sich viele vor, dass Erkrankte nicht sehen, wie dünn sie sind, und deshalb ihr Drang nach Schlankheit nie aufhört«, erläuterte die Psychologin Anne Thaler, die inzwischen für das Unternehmen EXO Insights arbeitet. Auch wenn diese Erklärung schlüssig klinge, gab es lange keine eindeutigen Belege dafür. Deshalb haben Thaler und ihre Kolleginnen und Kollegen ein KI-Modell von Black genutzt, um diese Hypothese zu testen. Sie erzeugten dreidimensionale Computermodelle von anorektischen Personen mit verschiedenen Körperformen – sowohl fülligere als auch dünnere Varianten. Die Erkrankten sollten dann beurteilen, welches Modell ihnen entspricht. Es ergab sich eine Überraschung: »Frauen mit Anorexia nervosa sind sich ihres Aussehens durchaus bewusst«, sagte Thaler. »Wir konnten keinen Unterschied zu gesunden Frauen darin feststellen, wie gut sie ihr Gewicht einschätzen können.«

Auch für gesunde Menschen hat die Technik praktische Nutzen. »Man könnte sich so aufwändige Reisen zu weit entfernten Zielen sparen und sich dabei trotzdem so frei bewegen und unterhalten können, als wäre man vor Ort«, sagt Theobalt. Gerade während der Corona-Pandemie fanden viele Konferenzen oder Meetings nur noch im Virtuellen statt. Allerdings stellte sich dabei kaum das Gefühl echten Beisammenseins ein. In manchen Fällen wurde Teilnehmenden ein Avatar zugeordnet, der der betreffenden Person nicht ähnlich sieht. Und selbst bei Videoübertragungen mit Kameras ist meist nur das Gesicht in schlechter Auflösung zu sehen. »Die Gestik und Mimik geht damit verloren – ein wichtiger Teil unserer Sprache«, sagt Habermann.

Die neuen Forschungsvorhaben könnten es Menschen bald ermöglichen, mit wenig Aufwand ein digitales Modell von sich selbst zu erstellen, das sich in Echtzeit durch eine virtuelle Umgebung bewegen kann. Doch dafür mussten die Fachleute viele Hürden überwinden.

Bewegung möglichst genau erfassen

In Saarbrücken findet der erste Schritt zum digitalen Avatar in einem großen Raum mit grün abgehängten Wänden statt. Habermann und ich stehen in dessen Mitte, rundherum ragen schwarze Punkte aus dem Stoff – es sind insgesamt 120 auflösungsstarke 4K-Kameras. »Die Kameras zeichnen uns aus vielen verschiedenen Winkeln auf und sammeln die Daten, um daraus unsere Bewegungen zu extrahieren«, erklärt der Forscher und deutet auf eine Ecke mit einem Computermonitor.

Auf diesem kann ich uns beide erkennen; der Bildschirm zeigt die Aufnahme einer bestimmten Kamera. Doch da ist noch etwas. Unsere Abbilder sind mit Linien überzogen, Habermanns von grünen, meines von gelben. Es scheint fast so, als würde der Computer unser Skelett in Echtzeit nachzeichnen. »Am schwierigsten sind die Hände«, sagt Habermann. Aber auch das klappt. Wenn ich die Finger spreize, erblicke ich auf dem Bildschirm fünf kleine Striche – einen für jeden Finger.

Bewegungserfassung | Insgesamt 120 hochauflösende Kameras zeichnen die Bewegung aus verschiedensten Winkeln auf.

»Wir verwenden dafür eine Software von ›The Captury‹, die wir auf unser Kamerasystem angepasst haben«, erklärt Habermann. Forschende von Theobalts Gruppe haben das Start-up 2013 gegründet, acht Jahre später wurde es vom US-amerikanischen Biotech-Unternehmen Dari Motion gekauft, das Systeme zur medizinischen Bewegungsanalyse entwickelt und vermarktet.

Ein virtuelles Skelett | Mit der Software von »The Captury« können die Forschenden in Saarbrücken eine Art virtuelles Skelett ableiten.

»In Hollywood nutzt man ›Mocap Suits‹ zur Bewegungserfassung«, erklärt Habermann. Dabei handelt es sich um hautenge Anzüge, die mit etlichen Sensoren versehen sind. Das macht kleinste Bewegungen detektierbar. »Das funktioniert sehr gut, ist aber aufwändig und teuer«, erklärt er. Zudem müssen 3-D-Grafiker das Ergebnis meist noch von Hand nachbessern. Wenn eine Pose unrealistisch aussieht oder der Körper des animierten Hulk nicht überzeugend ist, bearbeiten sie die Animationen. Dieser Aufwand mag sich für große Hollywoodproduktionen wie »Avengers: Endgame« zwar lohnen, die Millionen von Menschen in die Kinos locken, aber nicht für den alltäglichen Gebrauch.

Glücklicherweise ist es inzwischen nicht mehr zwingend nötig, eine Person in einen teuren, mit Sensoren versehenen Anzug zu stecken, um ihre Bewegungen zu modellieren. Oft genügt schon ein Skelettbild wie das im Raum in Saarbrücken. »Anfangs waren markerbasierte Lösungen wie Mocap Suits noch viel genauer«, sagt Alex Czarowicz, der bei The Captury arbeitet. »Aber durch die Nutzung von KI-Methoden konnten wir unsere Programme in den letzten Jahren deutlich verbessern, so dass sie in Echtzeit ein sehr gutes Tracking ermöglichen.« Inzwischen hat die Firma Kunden auf der ganzen Welt, sowohl in der Unterhaltungsindustrie als auch im medizinischen und Forschungsbereich. So haben Teams der Universität Freiburg mit dem System von The Captury die Bewegungsfähigkeit von Patienten mit Parkinson untersucht.

Für noch genauere Ergebnisse kann man Beine und Arme einer Person zusätzlich mit einzelnen Sensoren versehen. Diese sind inzwischen günstig zu erwerben – und oft sogar schon vorhanden. »Viele Menschen tragen mittlerweile eine Smartwatch«, sagt Habermann. »Diese enthalten Sensoren, deren Daten sich für Bewegungsmodelle nutzen lassen.« Damit lässt sich beispielsweise ermitteln, welche Kräfte auf die einzelnen Körperteile wirken, um etwa das Verletzungsrisiko einzuschätzen. »Inzwischen setzen große Firmen, Football-Teams und andere darauf, um die Gesundheit der Menschen zu fördern«, so Habermann.

Licht und Schatten

An einer Kleiderstange im Labor in Saarbrücken hängen auf vielen Bügeln Kleidungsstücke unterschiedlichster Stilrichtungen, unter anderem ein babyblauer Blazer, eine knallbunte Bluse mit Blumenmuster und ein roter Wollpullover. »Wir müssen immer wieder einkaufen gehen und versuchen, möglichst alle Stile abzudecken«, sagt Habermann. So soll die KI lernen, verschiedene Stoffe und Kleidungsstücke detailgetreu abzubilden.

Schließlich besteht ein Mensch aus mehr als dem Skelett, das Software wie die von The Captury liefert. Neben der Körperform, die unter anderem die Forschungsgruppe um Black untersucht, machen vor allem die Kleider die Leute. Die verschiedenen Stoffe stellen für Computer eine Herausforderung dar. Ein Rock kann im Wind flattern, obwohl die Trägerin sich nicht bewegt. Manchmal kombinieren wir mehrere Kleidungsstücke aus verschiedenen Stoffen übereinander, die unterschiedliche Texturen haben und sich somit unterschiedlich verhalten. Solche Zusammenhänge muss ein Computer erkennen.

Dabei spielt auch die Lightstage eine wichtige Rolle. Sie gibt preis, wie Materialien in unterschiedlichen Beleuchtungssituationen aussehen – insbesondere die Haut. »Die Haut ist sehr komplex«, erklärt Habermann. »Licht tritt in sie ein und wird dort auf komplizierte Weise gestreut.« Vielfalt in den Daten ist hier ebenfalls sehr wichtig. Damit eine KI später zuverlässig funktioniert, müssen die Eigenschaften von unterschiedlichen Hauttypen und -farben abgelichtet werden.

»Für die Instandhaltung braucht es ein Team, das permanent die Hardware betreut und neue Software zum Verarbeiten der Daten entwickelt«Marc Habermann, Informatiker

»Man kann superspannende Dinge mit einer Lightstage machen«, sagt Nießner von der TU München. Der Informatiker hat keinen Zugang zu einem solchen Gerät, hofft jedoch darauf, dass die Saarländer Forscher künftig die gesammelten Datensätze veröffentlichen werden. »Aber es braucht auch viel Aufwand und Engineering, um sie am Laufen zu halten.« Das kann Hartmann bestätigen: »Die Planung hat über ein Jahr gedauert und der Aufbau mehrere Monate. Für die Instandhaltung braucht es ein Team, das permanent die Hardware betreut und neue Software zum Verarbeiten der Daten entwickelt.«

Mit KI-Programmen zum digitalen Avatar

Um die Umrisse und Bewegungen einer Person samt Kleidung zu erfassen, bedeckt ein Algorithmus die Person mit einem Gitternetz aus miteinander verbundenen Knoten. Dabei sind diese immer mit der gleichen Stelle auf der Person verankert: Zum Beispiel könnte ein Knoten an der Nasenspitze sitzen und ein benachbarter auf der Wange. Diese beiden Punkte bleiben mit diesen Körperteilen auch auf anderen Aufnahmen der Person verknüpft.

Habermann und seine Kollegen verwenden dafür ein eigens entwickeltes KI-Programm namens EGNet: Als Eingabedaten erhält es aufgezeichnete Videos sowie die daraus abgeleiteten Skelettaufnahmen der Person von The Captury. Ein Knoten des durch EGNet erzeugten Netzwerks, der hauptsächlich mit Punkten auf der Haut verbunden ist, wird sich ganz anders bewegen als Knoten, die vor allem zu Punkten auf flatternder Kleidung wie einem Rock gehören. Damit haben die Knoten unterschiedliche Eigenschaften, die eine KI lernen kann. Dazu verarbeitet ein graphisches Faltungsnetzwerk (englisch: Graph Convolutional Network) die Aufnahmen.

Faltungsnetzwerk | Wie bei künstlichen neuronalen Netzen üblich, besteht auch ein Faltungsnetzwerk aus mehreren in Schichten angeordneten Neuronen. Die einzelnen Schichten untersuchen dabei verschiedene Merkmale eines Gitternetzes, wie ein Filter. Zum Beispiel könnte sich eine Schicht auf die Umrisse des Gitternetzes fokussieren, während eine andere die Kanten genauer studiert.

Das Faltungsnetz ermöglicht es, zwischen den verschiedenen Texturen zu unterscheiden und die Übergänge zwischen Kleidung und Haut kenntlich zu machen. Auf diese Weise kann das Programm die groben Merkmale der Aufnahmen erfassen. Zudem lernt EGNet menschliche Bewegungen und die damit einhergehende Verformung von Kleidung. Dazu analysiert es die einzelnen Standbilder eines Videos. Es verwendet die Pose in einem Bild sowie in den beiden vorherigen Aufnahmen für das Training. Damit lässt sich ein Modell einer sich bewegenden Person mit Kleidung entwickeln. Allerdings ist dieses noch recht grob und vermag keine Details aufzulösen.

Weitere Genauigkeit lässt sich gewinnen, indem man die Beleuchtungssituation während der Aufnahmen berücksichtigt. Denn die entstehenden Schattenwürfe können kleinste Details wie winzige Fältchen anzeigen. Damit das Modell diese Zusammenhänge versteht, werden ihm physikalischen Gesetzmäßigkeiten beigebracht, die angeben, wie eine weit entfernte Lichtquelle Licht und Schatten erzeugt. Dadurch werden die einzelnen Pixel des Modells angepasst. Zudem verwenden die Forschenden weitere KI-Programme wie DeltaNet, um Details aufzulösen, die EGNet entgehen. Diese funktionieren ähnlich wie EgNet, nutzen aber ein feingliedrigeres Gitternetz, um eine Person zu bedecken.

Die so erhaltenen Ergebnisse sind jedoch noch nicht allzu realistisch. Die Falten in der Kleidung wirken oft wie eingebacken und scheinen in bestimmten Posen nicht natürlich. Daher greifen die Forschenden auf ein weiteres neuronales Netzwerk namens TexFeat zurück, das anhand von Beispielaufnahmen lernt, Texturen realistisch zu modellieren. Dieses Programm überarbeitet dann das vorläufige Modell einer Person – und liefert ein realistisches Ergebnis. Indem man all die KI-Modelle miteinander verbindet, ergibt sich ein Computerprogramm, das anhand von Filmaufnahmen lernt, einen personifizierten 3-D-Avatar zu erstellen.

Mit den aufgezeichneten Daten trainieren die Saarbrücker verschiedene KI-Modelle, die jeweils auf eine bestimmte Aufgabe spezialisiert sind. Ein Programm identifiziert zum Beispiel die groben Motive einer Aufnahme: die sich bewegende Person in verschiedenen Beleuchtungssituationen, den Unterschied zwischen Haut und Kleidung. Ein anderes löst dann feinere Details auf, während ein drittes KI-Modell nur darauf spezialisiert ist, verschiedene Stoffe und Materialien realistisch abzubilden. Indem die Fachleute die Algorithmen miteinander verbinden, erhalten sie ein Computerprogramm, das anhand von Filmaufnahmen lernt, einen personifizierten 3-D-Avatar zu erstellen.

Die einzelnen KI-Programme werden im Voraus am Max-Planck-Institut in Saarbrücken für ihre Aufgaben trainiert. Bevor es dann eine bestimmte Person abbilden kann, muss das Programm zusätzlich für diese noch einmal trainiert werden. Das funktioniert leider nicht in Echtzeit: »Möchte man einen digitalen Avatar erstellen, sollte man eine gute Woche einplanen«, sagt Theobalt. Danach sind jedoch nur rudimentäre Daten nötig: Mit Aufnahmen von nur vier handelsüblichen Kameras lässt sich ein digitaler Avatar eines Menschen in Echtzeit in einer digitalen Umgebung steuern. Damit scheint der Traum eines naturgetreuen Computermodells, mit dem man virtuelle Umgebungen erkunden kann, zum Greifen nah.

Digitaler Avatar
Nach etwa einer Woche Training können die KI-Modelle einen menschlichen Avatar erstellen, der sich in Echtzeit steuern lässt.

Mit einer ähnlichen Vorgehensweise hat die Forschungsgruppe um Nießner eine Methode entwickelt, um ein fotorealistisches 3-D-Modell vom Gesicht einer Person zu erstellen. Der Ausdruck, die Pose und der Blickwinkel sind dabei vollständig steuerbar. Diese Technik heißt Face-Reenactment.

Digitale Fälschungen

Das erinnert an das beliebte Programm »Face Swap«, das es erlaubt, das Gesicht einer Person in einem Video durch ein anderes zu ersetzen. Doch tatsächlich gehen die Fähigkeiten von Face-Reenactment, wie es Nießner und sein Team entwickeln, weit über jene von Face-Swapping hinaus. Statt nur Veränderungen an einer bereits bestehenden Filmaufnahme vorzunehmen, erhält man durch Face-Reenactment das detaillierte Modell eines Gesichts für beliebige Szenen. Damit können völlig neue, realistische Videos erzeugt werden.

Face-Reenactment
KI ermöglicht es inzwischen, Gesichter völlig neu zu modellieren – und nicht bloß bestehende Aufnahmen zu manipulieren.

Solche Programme könnten nicht nur für Forschungs- und Unterhaltungszwecke genutzt werden. Mit ihnen ließen sich außerdem so genannte Deep Fakes erstellen: realistische Fälschungen in Video- oder Bildform. »Face-Swapping wird insbesondere genutzt, um pornografisches Material einer Person zu generieren«, sagt der Informatiker Matthias Neu, der am Bundesamt für Sicherheit in der Informationstechnik, kurz BSI, arbeitet. »Bisherige Fälschungen im Kontext von Desinformation stützen sich meist darauf, zunächst die Stimme einer Person zu modellieren«, erklärt Neu. »Dann wird oft ein bereits vorhandenes Video der Person verwendet und Techniken zur Lippensynchronisation.« Damit lässt sich eine Aufnahme so manipulieren, dass eine Person etwas völlig anderes sagt als im Original. »Solche Fälschungen lassen sich aber häufig entlarven, wenn man den Bereich des Mundes genauer untersucht«, sagt Neu.

Das Face-Reenactment, an dem Nießner arbeitet, ist bisher bei Fälschern nicht stark verbreitet. »Die Technik ist noch nicht so zugänglich und ist vergleichsweise aufwändig«, sagt Neu. »Man muss dafür das Modell eines spezifischen Gesichts trainieren. Aber es ist nur eine Frage der Zeit, bis sich auch diese Methode durchsetzt.« Das könnte Fälschungen ermöglichen, die qualitativ deutlich hochwertiger und deshalb schwerer aufzuspüren sind, befürchtet der Informatiker.

»Um Fälschungen erkennen zu können, ist Forschung im Bereich der Computer Vision unerlässlich«, sagt Theobalt. »Man muss verstehen, wie diese Programme genau funktionieren; warum eine Darstellung genau so modelliert wird und so weiter.« Die Beantwortung solcher Fragen hilft außerdem dabei, nachzuvollziehen, wie die Modelle noch besser werden können.

Eine solche Erklärbarkeit – also ein Verständnis dafür, warum ein KI-Programm genau das tut, was es tut – ist so etwas wie der Heilige Gral des Fachbereichs. Neu gibt allerdings zu bedenken, dass die aktuell besten Methoden zum Aufspüren von Fälschungen einen anderen Ansatz verfolgen. Man greift meist auf KI-gestützte Programme zurück, die auf diese Aufgabe trainiert wurden. Man zeigt ihnen Fälschungen und echte Aufnahmen, und sie lernen, beides voneinander zu unterscheiden. »Diese Programme laufen ohne ausreichende Erklärbarkeit«, sagt Neu. »Das Problem ist nämlich, dass es nicht diesen einen Deep Fake gibt.« Dennoch hält auch er die Forschung in diesem Bereich für wichtig.

»Die Forscher fokussieren sich in der Regel darauf, Ergebnisse zu erzeugen, die für das menschliche Auge realistisch aussehen – nicht für Algorithmen«Matthias Neu, Informatiker

Neu betont aber zugleich, dass die Forschenden nicht versuchen, ihre Modelle dahin zu optimieren, dass sie spezialisierten Algorithmen als Fälschungen entgehen: »Sie fokussieren sich in der Regel darauf, Ergebnisse zu erzeugen, die für das menschliche Auge realistisch aussehen – nicht für Algorithmen.« Und das gelingt ihnen immer besser.

Nach meinem Besuch in der Lightstage führen mich Habermann und seine Kollegen in einen völlig weißen, kleinen Raum, der wie eine Umkleidekabine wirkt. Die Wände sind mit lauter kleinen Punkten versehen – hunderte winzige Kameras, die auf mich gerichtet sind.

»Nicht bewegen«, höre ich von außerhalb. Es erscheint ein blendendes Blitzlicht – und dann beginnt ein Computerprogramm, die vielen verschiedenen Bilder aus unterschiedlichen Winkeln zu einem dreidimensionalen Modell meines Körpers zusammenzusetzen. Die Daten hat mir das Team freundlicherweise mitgegeben. Wer weiß: Vielleicht treffe ich Habermann und Theobalt das nächste Mal nicht in Saarbrücken, sondern ihre Avatare auf einer digitalen Konferenz.

WEITERLESEN MIT »SPEKTRUM +«

Im Abo erhalten Sie exklusiven Zugang zu allen Premiumartikeln von »spektrum.de« sowie »Spektrum - Die Woche« als PDF- und App-Ausgabe. Testen Sie 30 Tage uneingeschränkten Zugang zu »Spektrum+« gratis:

Jetzt testen

(Sie müssen Javascript erlauben, um nach der Anmeldung auf diesen Artikel zugreifen zu können)

Schreiben Sie uns!

Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.