Künstliche Intelligenz: Der Jahrmarkt der Verlustfunktionen

Künstliche Intelligenz: Wie man den besten KI-Algorithmus findet

Beim Training von KI-Modellen sind Verlustfunktionen entscheidend: Sie messen die Fehler der Algorithmen. Die richtige Funktion zu finden, ist aber nicht immer einfach. Eine Anleitung.

von Michael Brooks

Ein rauchender Quader mit Einsen und Nullen — © Sasha85ru / Getty Images / iStock (Ausschnitt)
Hinter jeder KI steckt Mathematik: Die Verlustfunktion ist entscheidend dafür, wie gut ein KI-Algorithmus funktioniert.

Normalerweise bezeichnet der »Wettlauf nach unten« (race to the bottom) in der künstlichen Intelligenz etwas Negatives. Denn häufig geht es dabei um Dinge, die sich verschlechtern – etwa die Sicherheit angesichts immer mächtigerer KI-Modelle. Für Verlustfunktionen hingegen ist ein Wettlauf nach unten genau das, was erwünscht ist.

Verlustfunktionen sind ein wichtiger, aber häufig übersehener Teil künstlicher Intelligenz. Trainiert man einen Algorithmus etwa darauf, nach bestimmten Merkmalen in Bildern zu suchen, dann muss man dessen Leistung beurteilen können. Das übernimmt die Verlustfunktion: Sie misst den Fehler eines Algorithmus in Bezug auf die Grundwahrheit der Daten – Informationen, von denen man weiß, dass sie real oder wahr sind. Nach Auswertung der Verlustfunktion werden die Parameter des Algorithmus angepasst, damit der Fehler beim nächsten Mal kleiner ist. »Man versucht, ein Minimum zu finden: den Punkt, an dem der Fehler hoffentlich null ist«, sagt Anna Bosman, KI-Forscherin an der University of Pretoria.

Inzwischen gibt es dutzende verschiedene Verlustfunktionen, die Entwickler in ihre KI-Systeme einbauen können. Wenn man die falsche wählt oder sie falsch nutzt, kann das zu fehlerhaften Algorithmen führen. Sie könnten den Beobachtungen widersprechen oder zufällige Schwankungen in den Daten wie relevante Informationen aussehen lassen. »Es gibt eine Menge Dinge, die schieflaufen können«, sagt Bosman. Und das Schlimmste ist, dass man das vielleicht gar nicht merkt, denn die Entscheidungen von KI-Systemen sind meist nicht nachvollziehbar. KI-Modelle gelten als Blackboxes.

Deshalb verzichten immer mehr Fachleute auf vorgefertigte Verlustfunktionen und entwickeln eigene Varianten. Doch wie funktioniert das? Was macht eine Verlustfunktion zu einem praktischen Werkzeug – und nicht zu einem Zeit raubenden Reinfall?

Welcher Fehler darf's denn sein?

In der Regel lernen KI-Algorithmen durch Feedback: Man teilt ihnen mit, wenn sie eine falsche Antwort gegeben haben. Verlustfunktionen quantifizieren solche Fehler – aber es gibt dafür mehrere Möglichkeiten.

Der absolute Fehler entspricht zum Beispiel der Differenz zwischen der Vorhersage des Algorithmus und dem Zielwert. Beim mittleren quadratischen Fehler werden die Unterschiede hingegen quadriert und anschließend über den gesamten Datensatz gemittelt.

Der mittlere quadratische Fehler ist als Verlustfunktion geeignet, wenn die Fehler relativ klein und konsistent sind. Allerdings kommt es zu Problemen, wenn die Daten viele Ausreißer enthalten. In diesem Fall sollte man eine »Pseudo-Huber-Verlustfunktion« nutzen, die berücksichtigt, ob der Fehler eines Datenpunkts groß oder klein ist.

Diese drei Verfahren sind am nützlichsten für eine Regressionsanalyse. Solche Verfahren sagen anhand von kontinuierlichen Daten (etwa Größe oder Gewicht in einer Population) vergangener Ereignisse voraus, welche Form künftige Datensätze haben werden. Ganz anders sind Klassifizierungsaufgaben, die beispielsweise das Motiv eines Bilds beschreiben. In diesem Fall bestimmt ein KI-Algorithmus die Wahrscheinlichkeit, dass ein Objekt zu einer bestimmten Klasse gehört – etwa mit welcher Wahrscheinlichkeit die übergebenen Pixel einen Hund darstellen. Dafür ist die »Kreuzentropie« nützlich, eine Verlustfunktion, welche die Wahrscheinlichkeitsverteilungen des Modells mit realen Werten vergleicht.

Hohe Genauigkeit kann danebenliegen

Diese verallgemeinerten Verlustfunktionen sind jedoch nicht immer die beste Wahl, wie der Genetiker Arjun Raj von der University of Pennsylvania feststellen musste. Raj untersucht die Genexpression in einzelnen Zellen mit Fluoreszenzmikroskopie. Dabei entspricht jedes RNA-Transkript einem einzelnen Punkt auf einem Bild. Man muss also die Punkte zählen und sie der richtigen Zelle zuordnen. Das Erkennen der zwei bis drei Pixel großen Flecken ist für einen Menschen recht einfach. Allerdings erzeugen die Forschenden Datensätze mit tausenden fluoreszierenden Flecken in Millionen von Zellen – zu viele, um sie von Hand zu analysieren. Als Raj und seine Kollegen den Prozess automatisieren wollten, bemerkten sie, dass keine bekannte Verlustfunktion ein zuverlässiges Ergebnis lieferte.

»Man könnte einen wirklich ›guten‹ Klassifikator erstellen, der einfach sagt, dass es in diesem Bild keine Flecken gibt, denn in 99,9 Prozent der Fälle gibt es keine Flecken«Arjun Raj, Genetiker

Raj und sein Team erkannten schnell das Problem. Gibt es nur wenige Flecken, könnte der Algorithmus jedes Pixel als »Nichtfleck« kennzeichnen, um gut abzuschneiden. Das führt jedoch zu einer katastrophal hohen Falsch-negativ-Rate. »Man könnte einen wirklich ›guten‹ Klassifikator entwickeln, der immer sagt, dass es im Bild keine Flecken gibt – denn in 99,9 Prozent der Fälle gibt es auch keine«, erklärt Raj. »Das ist in gewisser Weise sehr, sehr genau, auch wenn das Programm im Grunde überhaupt nichts Nützliches tut.«

Raj hat zusammen mit William Niu und weiteren Kollegen daher die neue Verlustfunktion SmoothF1 entwickelt. Sie beruht auf einer Metrik namens F1, die falsch negative gegen falsch positive Ergebnisse abwägt. F1 ist jedoch nicht differenzierbar, das heißt, sie lässt sich nicht ableiten. Ableitungen sind in der Mathematik aber nötig, um Optimierungsaufgaben zu lösen. Man kann F1 also nicht zum Trainieren eines neuronalen Netzes verwenden, weil sich der Fehler des Algorithmus nicht minimieren lässt. Deshalb haben die Fachleute die glatte Funktion SmoothF1 gebildet, welche die F1-Punktzahl annähert. Damit ist das Team nun in der Lage, die fleckigen Bilder automatisiert auszuwerten.

»Das ermöglicht es uns, Analysen mit viel höherem Durchsatz zu machen«, sagt Raj. Die Methode ist laut Niu für eine ganze Reihe von Anwendungen nützlich. »Theoretisch sollte unsere Methode bei jeder Art von Klassifizierung, bei dem die gesuchten Objekte weniger als fünf Prozent des Bilds einnehmen, eine bessere Leistung erzielen können«, erläutert er.

Wenn der Algorithmus das Falsche optimiert

Der Chemiker Pedro Seber vom Massachusetts Institute of Technology in Cambridge entwickelte seine eigene Verlustfunktion, um mit einem KI-Modell die Glykosylierung in Säugetierproteinen zu untersuchen. Das ist potenziell nützlich, um die Entwicklung von Krankheiten wie Krebs zu verstehen.

Seber hatte eigentlich nicht vor, sich mit maschinellem Lernen zu befassen. Zunächst trainierte er sein KI-Modell mit einer Kreuzentropie-Verlustfunktion, doch das funktionierte nicht gut. Bei näherer Betrachtung stellte er fest, dass das Ergebnis der Kreuzentropie nicht wirklich mit der eigentlichen Aufgabe zusammenhing. »Es ging um die Optimierung von etwas, was mich nicht wirklich interessierte«, erklärt er.

Daher beschloss Seber, eine maßgeschneiderte Verlustfunktion zu entwickeln, die sich auf sein Ziel konzentrierte: eine optimierte Version des Matthews-Korrelationskoeffizienten (kurz: MCC), einer Funktion, die der Verlustfunktion F1 ähnelt. Durch die gewichtete, differenzierbare MCC-Verlustfunktion verbesserte der Chemiker die Ergebnisse um etwa zehn Prozent. Das ist nicht sehr viel, räumt er ein, »aber an diesem Punkt zählt jede Verbesserung«. Schließlich könnten die Forschungsergebnisse bei der Entwicklung von neuen Medikamenten helfen.

»Es wird immer eine Herausforderung bleiben, die eigenen Wünsche in eine mathematische Bedeutung zu übersetzen«Willim Niu, Genetiker

Nicht jeder Versuch, eine Verlustfunktion zu erstellen, ist von Erfolg gekrönt, warnt der Datenwissenschaftler Andrew Engel vom Pacific Northwest National Laboratory in Richland, Washington. Er erzielte nur mittelmäßige Ergebnisse mit einer Verlustfunktion in KI-Modellen, die Rotverschiebungen von Galaxien (ein Maß, das die Entfernung zur Erde angibt) in Teleskopbildern bestimmen.

Engel wollte die Leistung des Algorithmus verbessern, indem er eine bestehende Verlustfunktion mit astronomischem Wissen ergänzte. Zu seiner Überraschung schnitt das KI-Modell nicht besser ab – wahrscheinlich, weil die neuen Informationen im Grunde nur wiederholten, was der Algorithmus bereits wusste. Immerhin war das Training in diesem Fall nicht besonders zeitaufwändig, so dass Engel verschiedene Ansätze testen konnte. »Das Schöne an diesem Bereich ist, dass wir ständig direkt Feedback bekommen, ob unsere Idee funktioniert oder nicht«, sagt er.

Was will man eigentlich messen?

Leider wissen Fachleute nicht in jedem Fall, was ihre Verlustfunktionen eigentlich messen sollen. Klar ist im Prinzip nur, dass die KI besser werden soll. Aber an welchen Stellschrauben muss man dafür drehen? »Es wird immer eine Herausforderung bleiben, die eigenen Wünsche in eine mathematische Bedeutung zu übersetzen«, sagt Niu.

Diese Ansicht wird durch eine 2023 von Hansol Ryu und Manoj Srinivasan von der Ohio State University in Columbus veröffentlichte Studie gestützt. Ryu und Srinivasan baten Fachleute, die Arbeit einer Verlustfunktion manuell auszuführen und Kurven nach Augenmaß an eine Vielzahl von Datensätzen anzupassen. Überraschenderweise variierte der gewählte Ansatz von Datensatz zu Datensatz und von Person zu Person.

»Menschen sind sehr viel variabler als Computeralgorithmen«, sagt Ryu. So verwendeten beispielsweise viele derjenigen, die nach eigenen Angaben den mittleren quadratischen Fehler visualisierten, unbewusst eine andere Methode – eine, bei der der am häufigsten auftretende Wert, der Modus des Datensatzes, an Stelle des Mittelwerts ermittelt wurde. Darüber hinaus gingen die Forschenden unterschiedlich mit Ausreißern um und schienen sie umso mehr abzulehnen, je größer die Datenmenge war.

»Menschen sind sehr viel variabler als Computeralgorithmen«Hansol Ryu, Biomechaniker

Beim Training einer KI geht es um mehr als das Minimieren von Fehlern. Fachleute müssen unter anderem eine Überanpassung (Overfitting) vermeiden. »Wenn das Modell zu komplex ist, könnte die Funktion jeden einzelnen Punkt im Datensatz kreuzen«, erklärt Bosman. »Auf dem Papier sieht es so aus, als wäre das Modell absolut großartig, doch wenn Sie es auf reale Punkte anwenden, sind die Vorhersagen völlig falsch.«

Überanpassung | Ein KI-Modell kann auch zu stark an die Daten angepasst sein (grüne Kurve). In diesem Fall folgt es exakt dem Verlauf der Punkte (rot und blau), ohne die grundlegende Gesetzmäßigkeit (schwarze Kurve) zu lernen. Sobald neue Daten hinzukommen, verliert das Modell seine Vorhersagekraft.

Anna Bosmans wichtigster Ratschlag lautet: Kenne dein Rauschen. »In der realen Welt sind die Daten sehr, sehr chaotisch«, betont sie. Eine allgemeine Verlustfunktion geht von Annahmen aus, die nicht unbedingt auf die jeweiligen Daten zutreffen. Der mittlere quadratische Fehler nimmt zum Beispiel eine Normalverteilung der Datenpunkte an. Die Daten im Projekt könnten jedoch besser zu einer anderen Verteilungsform passen. Bosman hat mit ihrem Team Verlustfunktionen untersucht, die die Cauchy-Verteilung verwenden. Diese ähnelt der Normalverteilung, hat aber stärkere Ausreißer. Cauchybasierte Verlustfunktionen funktionieren besser, wenn die Daten Rauschen enthalten, das nicht einer Normalverteilung entspricht.

Die richtige Funktion auswählen

Man kann die Bedeutung solcher Überlegungen gar nicht hoch genug einschätzen, sagt der Informatiker Jonathan Wilton von der University of Queensland in Brisbane, Australien: »Wenn Sie glauben, dass es wahrscheinlich Fehler oder Probleme mit Ihren Daten gibt, dann ist es vermutlich eine gute Idee, eine Verlustfunktion zu verwenden, die nicht so standardmäßig ist.«

Zusammen mit der Statistikerin Nan Ye, ebenfalls an der University of Queensland, entwickelte Wilton eine Methode zur Erstellung von Verlustfunktionen, die verrauschte Daten klassifizieren können: etwa Trainingsdaten, bei denen ein Hund fälschlicherweise als Katze beschriftet wurde. Das ist Ye zufolge ein häufiges Problem beim maschinellen Lernen. »Wenn die Verlustfunktion nicht robust gegenüber dieser Art von Rauschen ist, dann könnte es passieren, dass sich das Modell an das Rauschen und nicht an die Regelmäßigkeiten in den Daten anpasst.«

Wilton hat auf diese Weise eine Verlustfunktion für Entscheidungsbäume entwickelt – eine bestimmte Art von KI-Modell, das etwa viele verschiedene medizinische Informationen analysieren kann, um eine Krankheitsdiagnose zu stellen. Jetzt versucht der Informatiker das Gleiche für neuronale Netze. »Entscheidungsbäume sind wirklich vielseitig«, erklärt er. »Aber neuronale Netze sind besonders nützlich, wenn man sehr große Datensätze hat, in der Größenordnung von Hunderttausenden oder Millionen von Beispielen, die alle von ähnlichem Typ sind.«

Doch nicht nur die Art des Rauschens in den Daten ist wichtig. »Viele KI-Wissenschaftler werden auf Probleme oder Datensätze angesetzt, für die sie kein Fachwissen haben«, sagt Engel. »In diesen Fällen sollten sie sich mit Experten zusammensetzen, um das Fachgebiet zu verstehen.« Das könne zwar einige Zeit dauern, aber die Mühe lohne sich.

Kann KI ihre eigene Verlustfunktion erstellen?

Da es zunehmend mehr verfügbare Verlustfunktionen gibt, fällt die Wahl nicht immer leicht. Programmierbibliotheken wie PyTorch und scikit-learn ermöglichen es Forschenden, Verlustfunktionen relativ einfach auszutauschen. Bosman empfiehlt, mit diversen Funktionen zu experimentieren, um zu sehen, was funktioniert: »Man sollte mehrere Optionen ausprobieren und mit jeder 30-mal trainieren. Dann lässt sich herausfinden, ob eine Funktion statistisch besser geeignet ist als die andere.«

Das Problem könnte jedoch bald einfacher werden. Wilton sieht eine Möglichkeit in der Vereinheitlichung von Verlustfunktionen – eine übergreifende Funktion, die für viele Arten von Daten und Problemen geeignet ist. Eine andere Strategie ist ein maschineller Lernalgorithmus, der seine eigene Verlustfunktion auswählt und optimiert. Auch Bosman hofft auf ein Metamodell, das aus einer Liste verfügbarer Optionen die beste Verlustfunktion für das Problem empfiehlt.

Einige setzen diese Idee bereits um. KI-Forscher Juan Terven am Nationalen Polytechnischen Institut in Mexiko-Stadt tauscht sich regelmäßig mit ChatGPT über seine Anforderungen an die Verlustfunktion aus. »Man muss die Art des Problems und die Daten spezifizieren, und dann liefert der Chatbot eine Liste von Dingen, die man ausprobieren kann«, sagt er. 2023 haben Terven und seine Kollegen gezeigt, dass ChatGPT durchaus geeignet ist, um die richtigen Funktionen auszuwählen.

Letztendlich, so Nan Ye, ist das Auswählen der passenden Verlustfunktion »sowohl eine Wissenschaft als auch eine Kunst«. Eine Wissenschaft, weil man die Funktionen fundiert untersuchen und vergleichen kann, und eine Kunst, weil die Verbindung von Mathematik und Fachwissen oft kreatives Denken erfordert. Ob nun Kunst oder Wissenschaft: Verlustfunktionen verdienen mehr Aufmerksamkeit. Denn ohne sie bleibt künstliche Intelligenz eine undurchsichtige Blackbox.

Nature, 10.1038/d41586-024-02185, 2024

Künstliche Intelligenz: Wie man den besten KI-Algorithmus findet

Welcher Fehler darf's denn sein?

Hohe Genauigkeit kann danebenliegen

Wenn der Algorithmus das Falsche optimiert

Was will man eigentlich messen?

Die richtige Funktion auswählen

Kann KI ihre eigene Verlustfunktion erstellen?

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Urknall, Weltall und das Leben: Biohacking, Künstliche Intelligenz und Algorithmen

Künstliche Intelligenz: Alte KI evolviert neue KI

Künstliche Intelligenz: Wenn der Computer ein Volltrottel ist

Schlaulicht: Künstliche Intelligenz

Themenkanäle

Informationstechnologie

Der digitale Mensch

Das Digital-Manifest

SponsoredPartnerinhalte