Physiognomie: Was steht uns ins Gesicht geschrieben?
Es gehört zu dem Persönlichsten, was wir besitzen, und ist doch ungeschützt für jedermann sichtbar: das Gesicht. Und das weckt mehr und mehr Begehrlichkeiten. Das menschliche Antlitz soll Algorithmen dazu dienen, Gefühle zu analysieren und Auskunft über Einstellungen und Verhaltensweisen zu geben. Möglich macht das die Revolution der Gesichtserkennung durch tiefe künstliche neuronale Netzwerke (Deep-Learning-Netzwerke), die die Funktionsweise der vernetzten Nervenzellen im Gehirn nachbilden. Aber können Algorithmen tatsächlich so gut in unserem Gesicht lesen, wie manche behaupten?
Das amerikanische KI-Unternehmen Kairos mit Sitz in Miami etwa interessiert sich für das menschliche Gesicht vor allem aus marketingtechnischen Gründen. Es hat eine Software entwickelt, die die ethnische Herkunft einer Person aus Porträtfotos ermitteln kann. Das Ergebnis, das die Software ausspuckt, lautet dann beispielsweise: »50 Prozent afroamerikanisch, 20 Prozent asiatisch, 30 Prozent hispanisch.« Kairos wirbt damit, dass Make-up-Hersteller auf diesem Weg Produktempfehlungen auf den Hauttyp ihrer Kunden abstimmen könnten.
Wie unabhängige Forschungsarbeiten belegen, können Algorithmen die Ethnie anhand des Gesichts teilweise schon jetzt besser erkennen als Menschen. »Die Genauigkeit bei der Unterscheidung von Chinesen, Japanern und Koreanern liegt bei etwa 75 Prozent.« Das sagt der Informatiker Jiebo Luo von der University of Rochester mit Blick auf eine seiner Studien. Künstliche neuronale Netze vermochten die Aufgabe fast doppelt so gut zu lösen wie Menschen. Sie stießen auf einige markante Unterschiede zwischen den Asiaten, etwa dass Chinesen am wahrscheinlichsten buschige Augenbrauen haben. In einer zweiten Studie von 2018 konnten die Algorithmen von Luo und seinen Kollegen Personen aus Russland, Italien, Deutschland, Spanien und Frankreich mit einer Genauigkeit von etwa 50 Prozent und damit doppelt so gut wie menschliche Probanden auseinanderhalten.
Gefühle spiegeln sich nur teils in der Mimik
Eine Software, die die Ethnie oder das Geschlecht eines Menschen bestimmen soll, kratzt noch vergleichsweise an der Oberfläche. Tiefer ins Innenleben eines Menschen zielen Versuche, aus dem menschlichen Antlitz Emotionen auszulesen. Bei der automatisierten visuellen Emotionserkennung erfassen Algorithmen auf Bildern Gesichtsausdrücke. »Im Vergleich zum Menschen klappt die Erkennung von Gesichtsausdrücken schon ziemlich gut«, sagt André Weinreich, Professor für Allgemeine Psychologie an der BSP Business School Berlin. Er hat ein Unternehmen gegründet, das Technologien zur Emotionsmessung entwickelt und vermarktet. Sein Eindruck: Verglichen mit der Elektromyografie, bei der die Veränderung der Aktivität der Gesichtsmuskeln gemessen wird, schneide die automatisierte visuelle Erkennung bislang ziemlich schlecht ab.
Belastbare Zahlen hierzu gibt es nicht. Aber laut Weinreichs Einschätzung bleiben der automatisierten visuellen Emotionserkennung etwa 80 Prozent der tatsächlich vorhandenen emotionalen Reaktionen verborgen. Denn eigentlich möchte man ja nicht Gesichtsausdrücke, sondern die zu Grunde liegenden Emotionen erkennen. Und der Erfolg von visueller Emotionserkennung hängt dabei davon ab, wie sehr sich die Emotionen im Gesicht widerspiegeln. »Deuten sich die Emotionen im Gesicht nur leicht an oder drücken sich gar nicht aus, kann auch ein Algorithmus keine Emotionen erkennen.« Bei voll ausprägten Emotionen klappt das hingegen schon ziemlich gut. »Die Software ist faktisch so gut wie geschulte menschliche Codierer – sofern das Gesicht frontal gut sichtbar und ausgeleuchtet ist.«
Menschliche Emotionen soll auch das vom Fraunhofer-Institut für Integrierte Schaltungen (IIS) ausgetüftelte System namens »Shore« erkennen: »Es kann sowohl im Einzelhandel als auch für digitale Werbeflächen eingesetzt werden und analysiert in Echtzeit das Kaufverhalten Ihrer Kunden«, heißt es vollmundig in einer Broschüre. Dazu wertet die Software von einer Kamera aufgenommene Bilder und Videos von Kunden nach Geschlecht und Alter aus und erfasst angeblich auch Emotionen. In einem begleitenden Video zur Software sieht man das Gesicht einer jungen Frau, das mit einer Art Raster überzogen ist. Verzieht sie beispielsweise ihr Gesicht, steigt ein grafischer Balken mit einem Wert für Ärger.
Aus Emotionen auf das Konsumverhalten schließen
André Weinreich hat »Shore« selbst getestet. Er und seine Kollegen haben Probanden Bilder gezeigt, die bestimmte Emotionen auslösen sollten: Katzenbabys, schöne Menschen und leckere Nahrungsmittel sollten positive Emotionen wecken, Verletzungen, Gewalt und Verschmutzungen negative Gefühle. Dabei haben sie gemessen, ob man diese emotionalen Reaktionen mit der Software wirklich erfassen kann. »Prinzipiell funktioniert das«, weiß der Psychologe. Ihm sind allerdings keine Studien bekannt, die zeigen, dass solche durch visuelle Emotionserkennung gemessenen Gefühle das Konsumverhalten vorhersagen.
Grundsätzlich ist das jedoch möglich. Wenn ein Produkt positive und aktivierende Emotionen auslöst, steigt die Wahrscheinlichkeit, dass das Produkt auch im realen Wirtschaftsleben gekauft wird. Das konnten André Weinreich und seine Kollegen mit einer anderen Technik zeigen: Mittels Elektromyografie hatten sie die emotionalen Reaktionen von Probanden auf jeweils zwei verschiedene Versionen von diversen Landing Pages registriert – Webseiten, auf die ein potenzieller Kunde über eine Suchmaschine oder eine Werbeanzeige geleitet wird. Auf Grund dieser Daten gelang es ihnen dann mit 75 Prozent Genauigkeit vorherzusagen, welche der beiden Versionen in der Realität erfolgreicher abschneiden würde. Die automatisierte Emotionserkennung durch Algorithmen ist im Vergleich zur Elektromyografie zwar viel unaufwändiger. »Aber sie wird dies meiner Vermutung nach nicht annähernd so gut leisten können«, sagt Weinreich. »Einfach weil eben viele emotionale Reaktionen nicht sichtbar sind.«
Es geht noch unheimlicher: Einige Forscher behaupten, sie könnten kriminelle Neigungen an den Gesichtszügen ablesen. Zu ihnen gehören Xiaolin Wu und Xi Zhang von der chinesischen Shanghai Jiao Tong University. Sie ließen eine Software zunächst raten, ob eine Person auf einem Foto kriminell war oder nicht, und fütterten den Algorithmus dann mit der korrekten Antwort, so dass dieser seine Klassifikation verbessern konnte. Am Ende konnte er den Unterschied angeblich mit einer Quote von 90 Prozent bestimmen.
Störsignale verfälschen die Quote
Die Kritik ließ nicht lange auf sich warten: So stammten die Bilder der »Nichtkriminellen« und der »Kriminellen« aus unterschiedlichen Quellen. Die der als kriminell klassifizierten Personen kamen von drei Behörden und waren Ausweisfotos. Die der »Nichtkriminellen« waren hingegen Profilfotos chinesischer Bürger von verschiedenen Webseiten. Und das erklärt letztlich vielleicht den Erfolg des Algorithmus. Die Software könnte auf andere Kennzeichen in den Bilddaten gestoßen sein und nicht auf aussagekräftige Merkmale in den Gesichtern.
Ähnliches hat der Informatiker Florian Gallwitz von der Technischen Hochschule Nürnberg selbst schon erlebt. »Wir haben vor Jahren Algorithmen darauf trainiert, Slowenisch und Slowakisch zu unterscheiden.« Durch einen Fehler bei der Aufbereitung der Daten war bei den Aufnahmen von einem der Aufnahmeorte noch ein Audiosignal enthalten, das für das menschliche Ohr nicht wahrnehmbar war. »Und letztlich unterschieden die Algorithmen genau anhand dieses Merkmals die beiden Sprachen.«
Auch der Informatiker Michael Cook von der Queen Mary University of London hat mit der chinesischen Studie Probleme: »Die Studie setzt ›kriminell‹ damit gleich, dass die Personen in einem bestimmten Datensatz sind.« Darunter fielen auch nichtverurteilte Verdächtige sowie Menschen, die geringere Verbrechen begangen hätten. »Wenn wir das Wort ›kriminell‹ lesen, denken wir gemeinhin an etwas angeboren Böses, etwas Objektives.« Doch in China würden Menschen auch für Taten verurteilt, die in den meisten anderen Ländern nicht als Verbrechen gelten. Die auf den ersten Blick beeindruckende Trefferquote von 90 Prozent in der chinesischen Studie ist also mit Vorsicht zu genießen.
»Deep Learning kann nicht Informationen aus Fotos herausziehen, die gar nicht da sind«
Alexander Todorov
Ähnliches gilt für Versuche, aus dem Gesicht Eigenschaften wie Homosexualität oder die politische Einstellung herauszulesen. In einer Studie von 2018 ließ der Psychologe Michal Kosinski von der Stanford University einen Algorithmus entscheiden, wer auf jeweils einem von zwei Bildern heterosexuell und wer homosexuell war. Im Fall von Männern lag der Algorithmus in 81 Prozent, bei den Frauen in 71 Prozent der Fälle richtig. Tendenziell schienen die Gesichtszüge homosexueller Männer offenbar femininer als die von heterosexuellen.
Doch was bedeuten diese Zahlen? Jedenfalls nicht, dass man bei einer gegebenen Population in 81 Prozent der Fälle die sexuelle Orientierung bestimmen kann. Das gilt nur für den von Kosinski untersuchten Fall, bei dem grundsätzlich einer von zwei abgebildeten Männern homosexuell ist. Außerdem stammten die Bilder von einem Dating-Portal, und dort findet man möglicherweise vermehrt Bilder, die Hinweise auf die sexuelle Orientierung geben.
Man sieht nicht auf jedem Bild gleich aus
Ist es denn überhaupt prinzipiell möglich, Charaktereigenschaften wie eine Neigung zu kriminellem Verhalten oder die politische Einstellung aus Bildern eines Gesichts abzuleiten? »Die kurze Antwort lautet: Nein«, sagt der Psychologe Alexander Todorov von der Princeton University, der sich seit vielen Jahren mit dieser Frage beschäftigt. Porträtfotos seien trügerisch. Die Forschung habe gezeigt: Unterschiedliche Bilder könnten einen ganz unterschiedlichen Eindruck vermitteln. Auf dem einen sehe eine Person etwa vertrauenswürdig aus, auf einem anderen gerade nicht.
»Deep Learning kann nicht Informationen aus Fotos herausziehen, die gar nicht da sind«, so Todorov. Dahinter stecke die falsche Vorstellung, dass Menschen über einen unveränderlichen Kern verfügten, der die äußere Erscheinung und das Verhalten festlegt.
Trotz all der Fortschritte bei der automatisierten Gesichtserkennung: Die Technik ist derzeit in vielem noch nicht so weit, wie gerne behauptet wird. Und in mancher Hinsicht – wie beim Herauslesen von Charaktereigenschaften – gibt es gar prinzipielle Grenzen. Diese wird man auch in Zukunft durch bessere Technik nicht überwinden können.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.