Lobes Digitalfabrik: Achtung, Ihre Stimme wird geklont!
Auch Banken setzen Spracherkennung ein, um Kunden anhand ihrer Stimme zu verifizieren. Die europäische Zahlungsdienste-Richtlinie (PSD2) schreibt seit 2019 eine so genannte starke Kundenauthentifizierung vor. Das heißt: Online- und Kartenzahlungen müssen grundsätzlich durch zwei voneinander unabhängige Merkmale aus den Kategorien Wissen (zum Beispiel PIN, Passwort), Besitz (Handy, Karte, TAN-Generator) und Inhärenz (Fingerabdruck, Stimme, Gesicht) bestätigt werden. Weil Passwörter leicht vergessen oder gehackt werden und Geräte gestohlen werden können, setzen einige Zahlungsdienstleister auf eine biometrische Authentifizierung. So können Kunden von Mastercard mit einem Selfie bezahlen. Auch der chinesische Bezahldienst Alipay bietet ein System an (»Smile to Pay«), bei dem sich Kunden mit ihrem Gesicht legitimieren. Zwar betonen die Kreditinstitute, dass Stimmerkennung ein hohes Sicherheitsniveau bietet. Doch in der Vergangenheit haben stimmbiometrische Authentifizierungssysteme erhebliche Schwächen offenbart.
Dem BBC-Reporter Dan Simmons ist es vor einiger Zeit gelungen, das stimmbasierte ID-System der Großbank HSBC zu überlisten. Kunden, die auf ihr Konto zugreifen wollen, mussten am Telefon ihre Kontonummer und ihr Geburtsdatum angeben und dann den Satz »My voice is my password« (Meine Stimme ist mein Passwort) wiederholen. Simmons ließ dazu seinen Bruder vor laufenden Kameras im Kundenzentrum anrufen, die beiden sind zweieiige Zwillinge. Prompt landete Simmons Bruder Joe im Onlinebanking des BBC-Reporters. Zwar konnte er kein Geld abheben. Er hatte jedoch Zugriff auf das Konto und hätte Geld auf ein anderes Konto buchen können. Ein böswilliger Angreifer hätte sich hohe Summen zuschanzen können. Ein peinlicher Vorgang.
»Wirklich alarmierend ist die Tatsache, dass die Bank mir sieben Fehlversuche gewährte, den Stimmabdruck meines Bruders nachzuahmen«, sagt Joe Simmons. Beim achten Versuch hatte er dann Erfolg.
Hallo, hier spricht die KI
Dabei braucht es gar keinen menschlichen Doppelgänger, um eine Stimme zu imitieren. Mit Hilfe moderner Software lassen sich realistische Stimmklone generieren. Forscher des chinesischen Suchmaschinenunternehmens Baidu haben ein Verfahren vorgestellt, das nur wenige Sekunden Ausgangsmaterial benötigt, um eine Stimme digital zu reproduzieren. Das Programm Baidu Deep Voice, das in der KI-Schmiede des Unternehmens entwickelt wurde, kann sogar Akzente imitieren und Witze in ein Gespräch einbauen.
Der Sicherheitsforscher Vijay Balasubramaniyan demonstrierte, wie sich mittels einer KI die Stimme von Donald Trump synthetisieren lässt. Dazu wurde ein Machine-Learning-Algorithmus mit Audiomaterial aus öffentlichen Quellen (zum Beispiel Youtube) trainiert. Der Computer erkannte in dem Datenmaterial bestimmte Muster und lernte, diese Sprachcharakteristika in nicht einmal einer Minute zu reproduzieren. Der Informatiker konnte dann mit einem Text-to-Speech-System den Fake-Trump Sätze wie diesen artikulieren lassen: »An diesem Morgen haben die amerikanischen Streitkräfte Nordkorea die blutige Nase verpasst, die es verdient.« Ein Satz, den Trump nie gesagt hat. Doch für den Hörer klingt diese fingierte Kriegserklärung authentisch. Kaum vorstellbar, was passieren würde, wenn eine solche Sprachaufnahme im Netz kursieren würde. Es braucht keinen Stimmenimitator mehr, um Leute zu narren. Die KI kann das viel besser. Die Frage ist: Kann man seinen Ohren noch trauen?
Google hat vor ein paar Jahren eine KI namens Duplex präsentiert, die autonom Telefongespräche durchführt und sogar Verlegenheitslaute wie »ähm« oder »hm« einstreut. Wenn man sich die Demoversion anhört, weiß man gar nicht, wer jetzt der Mensch oder die Maschine ist. Das Manipulationspotenzial ist gewaltig. Denn auch Betrüger machen sich die Technik zu Nutze. Laut einem Bericht des »Wall Street Journal« wurde 2019 der Geschäftsführer eines britischen Energieunternehmens vom Chef des deutschen Mutterunternehmens am Telefon angewiesen, 243 000 Dollar auf das Konto eines ungarischen Zulieferers zu überweisen. Doch der Anrufer war nicht der Vorgesetzte, sondern ein Trickbetrüger, der eine Stimmkopie nutzte. Eine perfide Masche.
Dreimal rief der vermeintliche Boss an. Tonalität, Sprachmelodie, der leichte deutsche Akzent – all das kam dem Betrugsopfer bekannt vor. Erst als der Geschäftsführer bemerkte, dass der dritte Anruf von einer österreichischen Nummer erfolgte, wurde er stutzig. Und schöpfte Verdacht. Er unterließ vorsichtshalber eine zweite Überweisung. Ein größerer Schaden konnte so vermieden werden. Doch das bereits überwiesene Geld war weg.
Wie die Cyberkriminellen an die Stimme des Geschäftsführers gelangten und welche Technik sie nutzten, ist unklar. Fakt ist: Der Schaden durch Audio-Deepfakes geht in die Millionenhöhe. Der Enkeltrick – ein besonders hinterhältiger Telefonbetrug, bei dem sich der Anrufer als Angehöriger ausgibt und eine finanzielle Notlage vorspiegelt, um dem Opfer Geld abzupressen – könnte durch digitale Manipulationstechniken eine ganz neue Dimension bekommen. In Zeiten, in denen Menschen unbedarft auf öffentlichen Audio-Plattformen wie Clubhouse plappern und unfreiwillig Trainingsdaten von sich preisgeben, haben Kriminelle leichtes Spiel. Kaum hat man sich warmgeredet, hat ein Dritter schon eine Kopie des Stimmabdrucks angefertigt. Wer weiß, welche Stimmenfänger sich im Netz herumtreiben. Wenn die Stimme das neue Passwort sein soll, ist es ein sehr unsicheres.
Schreiben Sie uns!
Beitrag schreiben