Künstliche Intelligenz: Neuartige KANs übertreffen bisherige neuronale Netzwerke
ChatGPT hat einen regelrechten KI-Hype ausgelöst. Durch das große Sprachmodell der US-Firma OpenAI sahen sich alle führenden Softwareunternehmen genötigt, möglichst schnell mit ähnlichen Anwendungen nachzuziehen. Es ist ein Wettlauf gegen die Zeit: Wer schafft es, ein noch umfassenderes, noch leistungsfähigeres KI-Modell zu entwickeln? Meta veröffentlichte Anfang 2023 ein Sprachmodell namens Llama und Google präsentierte im selben Jahr Gemini. Auch andere Anbieter wie das US-Unternehmen Anthropic lieferten beeindruckende KI-Anwendungen.
Die neuen Algorithmen sind aber alles andere als perfekt: Um sie zu trainieren, braucht es viel Zeit und Rechenaufwand; zudem ist meist unklar, wie sie zu ihren Ergebnissen kommen. Tatsächlich sind die jetzigen KI-Modelle wie eine Blackbox. Man gibt etwas ein, und sie liefern ohne Erklärung eine Ausgabe. So fällt es schwer, herauszufinden, ob ein Programm gerade »halluziniert« oder eine sinnvolle Antwort liefert. Die meisten Firmen konzentrieren sich darauf, zuverlässige Ergebnisse zu erzielen, indem sie die Modelle mit noch mehr Daten trainieren oder auf bestimmte Aufgaben hin optimieren, etwa das Lösen von mathematischen Problemen.
Doch das Grundprinzip der KI-Modelle bleibt in der Regel unangetastet: Die Algorithmen fußen meist auf neuronalen Netzwerken. Der Aufbau ist dem visuellen Kortex unseres Gehirns nachempfunden. Nun haben Fachleute um den Physiker Ziming Liu vom Massachusetts Institute of Technology allerdings einen neuen Ansatz entwickelt, der neuronale Netze in vielerlei Hinsicht übertrifft. Wie die Fachleute im Mai 2024 in einer noch nicht begutachteten Arbeit berichten, können so genannte Kolmogorov-Arnold-Netzwerke (KANs) verschiedenste Aufgaben deutlich effizienter meistern und wissenschaftliche Probleme besser lösen als bisherige Herangehensweisen. Und der wohl größte Vorteil: Ihre Ergebnisse lassen sich nachvollziehen. Die Fachleute hoffen, KANs künftig auch in große Sprachmodelle integrieren zu können, um auch in diesem Bereich von ihren Vorzügen zu profitieren.
»Es ist wichtig, nach effizienteren, besser interpretierbaren und weniger trainingsintensiven Strukturen für KI in der Mathematik zu suchen«Geordie Williamson, Mathematiker
Tatsächlich stammt die Idee hinter den neuen Netzwerken aus der Mathematik. »KANs sehen interessant aus«, sagt der Mathematiker Geordie Williamson von der University of Sydney, der nicht an der Arbeit beteiligt war. »Es ist wichtig, nach effizienteren, besser interpretierbaren und weniger trainingsintensiven Strukturen für KI in der Mathematik zu suchen.«
Welcher KI-Ansatz ist der beste?
Es gibt viele verschiedene Algorithmen des maschinellen Lernens, etwa so genannte Entscheidungsbäume oder lineare Regression. Doch seit den 2010er Jahren haben sich neuronale Netzwerke in den meisten Anwendungen durchgesetzt. Dabei handelt es sich um Programme, deren Aufbau an die Struktur des visuellen Kortex von Säugetieren angelehnt ist. Mehrere Recheneinheiten (Neurone) sind in Schichten hintereinander angeordnet und durch Kanten (Synapsen) verbunden. Ein Signal breitet sich von vorne nach hinten durch die Schichten aus und wird dabei verarbeitet. Zwar reicht die Idee zu solchen Computerprogrammen bis in die 1950er Jahre zurück, aber erst in den 2010er Jahren waren Computer leistungsfähig genug, um solche Programme erfolgreich zu betreiben.
Denn neuronale Netzwerke erfordern ein aufwändiges Training. Damit die Eingabe (etwa die Pixel eines Bilds) zu der passenden Ausgabe führt (etwa eine Beschreibung des Bilds), muss das KI-Modell auf die gewünschte Aufgabe angepasst werden. Zunächst übergibt man dafür die Eingabewerte an die Neurone der ersten Schicht. Diese werden dann mit den »Gewichten« (Zahlenwerten) der jeweiligen Kanten multipliziert. Erreicht das Produkt einen bestimmten Schwellenwert, wird es an die nächste Schicht weitergeleitet. Die Neurone der zweiten Schicht übernehmen dann die Zahlenwerte der zu ihnen führenden Kanten. Das setzt sich fort: Die Neurone der zweiten Schicht werden mit den Gewichten der nachfolgenden Synapsen multipliziert, zur dritten Schicht geleitet und so weiter, bis das Signal die Ausgabeschicht erreicht. Während des Trainings passt das neuronale Netz die Gewichte der Kanten so an, dass eine Eingabe die gewünschte Ausgabe erzeugt.
Neuronale Netzwerke
Neuronale Netze gehören zu den verbreitetsten Algorithmen des maschinellen Lernens. Diese Programme sind an den Aufbau des visuellen Kortex von Säugetieren angelehnt: Sie bestehen aus Recheneinheiten, den Neuronen, die miteinander durch Synapsen verbunden sind. Die Neurone sind in Schichten angeordnet und verarbeiten Informationen nacheinander.
Die erste Schicht von Neuronen (n1, n2 und n3) entspricht der Eingabe: Dort übergibt man dem Programm Werte, die es verarbeiten soll, etwa die Pixel eines Bilds. Jede Synapse hat ein Gewicht (w), das mit dem Wert des vorangehenden Neurons multipliziert wird. Erreicht das Produkt einen bestimmten Schwellenwert, wird das Ergebnis weitergeleitet. Die zweite Schicht Neurone erhält dann die entsprechenden weitergereichten Produkte. Falls mehrere Synapsen zu einem Neuron führen, werden die dazugehörigen Produkte summiert.
Auf diese Weise werden die Eingabewerte Schicht für Schicht verarbeitet, bis sie in der letzten Schicht eine Ausgabe produzieren. Damit das neuronale Netz seine Aufgabe erfüllt, etwa zu einem Bild eine passende Beschreibung liefert, müssen die Gewichte der Synapsen angepasst werden. Das geschieht durch ein umfangreiches Training: Anhand hunderttausender Beispieldaten kann ein Netzwerk die Gewichte so wählen, dass es seine Aufgabe zuverlässig erfüllt.
Das Prinzip hinter neuronalen Netzen entspricht letztlich einer mathematischen Aufgabe: Man möchte zu bestimmten Eingabedaten x1, x2, x3, … (die Bildpixel) eine Ausgabe y erzeugen (die Bildbeschreibung) und sucht daher die passende Funktion f(x1, x2, x3, …) = y. Ziel ist es also, eine Funktion zu bestimmen, die zu jeder Art von Bild eine dazugehörige Beschreibung liefert. Eine solche Funktion ist natürlich schrecklich kompliziert – eine exakte Lösung zu finden erscheint hoffnungslos.
Doch neuronale Netze bieten die Möglichkeit, eine solche Funktion f durch einfache Ausdrücke anzunähern. Denn im Prinzip besteht ein neuronales Netz aus nichts anderem als einer Verkettung linearer Terme: Es werden Werte von Neuronen mit Gewichten von Synapsen multipliziert und summiert. Aus mathematischer Sicht stellt sich die Frage, welche Funktionen f ein neuronales Netz überhaupt abbilden kann – schließlich könnte f so kompliziert sein, dass es sich einer einfachen Darstellung durch lineare Näherungen entzieht. Ein wichtiges Ergebnis ist hierbei das »universelle Approximationstheorem«, das sich dieser Frage annimmt. Fachleute konnten in den vergangenen Jahren beweisen, aus wie vielen Schichten ein neuronales Netz mindestens bestehen muss, um eine bestimmte Art von Funktion f annähern zu können – und damit eine gewünschte Aufgabe zufrieden stellend zu lösen.
Die Mathematik liefert einen neuen Ansatz
Tatsächlich gibt es ein mathematisches Ergebnis, das es erlaubt, komplizierte Funktionen der Art f(x1, x2, x3, …) exakt durch einfachere Terme auszudrücken – und nicht bloß anzunähern, wie es bei gewöhnlichen neuronalen Netzen der Fall ist. Die Grundlage dafür bildet ein Theorem, das die Mathematiker Vladimir Arnold und Andrey Kolmogorov in den 1960er Jahren entwickelt haben. Demnach lässt sich eine Funktion f, die von zahlreichen Eingaben x1, x2, x3, … abhängt, exakt durch eine Summe von Funktionen g1(x1), g2(x2), g3(x3), … ausdrücken, die jeweils nur von einer Variablen abhängen. Das mag auf den ersten Blick noch immer kompliziert wirken, stellt aber aus mathematischer Sicht eine drastische Vereinfachung dar. Denn es ist ungemein schwierig, mit Funktionen zu arbeiten, die direkt von unzähligen Variablen x1, x2, x3, … abhängen.
Das Team um Ziming Liu hat nun das Theorem von Arnold und Kolmogorov genutzt und damit eine neuartige Version neuronaler Netzwerke entwickelt, die KANs, die akkuratere und nachvollziehbare Ergebnisse liefern. »Das Kolmogorov-Arnold-Representationstheorem ist in der Neural-Network-Community nicht unbekannt«, sagt der Informatiker Kristian Kersting von der TU Darmstadt, der nicht an der neuesten Forschungsarbeit beteiligt war. In den 1980er und 1990er Jahren ging die Fachwelt davon aus, dass sich dieser Ansatz nicht für neuronale Netze nutzen lasse. Zwar hat sich diese Auffassung in den letzten Jahren gewandelt, doch bisher schlug eine direkte Umsetzung des Prinzips fehl.
KANs ähneln in ihrem Aufbau gewöhnlichen neuronalen Netzen. Allerdings haben die Gewichte keinen festgelegten Zahlenwert, sondern entsprechen einer Funktion w(x). Das heißt, das Gewicht w der Synapse hängt vom Wert x des vorangehenden Neurons ab. Während des Trainings lernt das neuronale Netz also nicht, die Gewichte als reine Zahlenwerte anzupassen, sondern die zugehörigen Funktionen der Synapsen. Auf diese Weise ist es zumindest rein theoretisch möglich, eine hochkomplizierte Funktion f(x1, x2, x3, …) durch ein endliches Netzwerk exakt darzustellen – und damit eine Aufgabe durch KI perfekt zu lösen.
Einen weiteren Vorteil bietet die Darstellung der erlernten Synapsen-Funktionen. Auf diese Weise lässt sich besser verstehen, wie das KAN funktioniert. Denn während einfache Zahlenwerte als Gewichte keine starke Aussagekraft haben, ist das bei Funktionen anders. So lässt sich beispielsweise visuell erkennen, wie die Ausgabe von der Eingabe abhängt, indem man die zugehörigen Graphen der Funktionen betrachtet.
Allerdings bergen die neuen Netzwerke einen wesentlichen Nachteil: Da KANs ganze Funktionen statt bloße Zahlenwerte während des Lernprozesses anpassen müssen, fällt die Trainingsphase deutlich aufwändiger aus – sie braucht mehr Zeit.
Wie schneiden KANs in der Praxis ab?
In ihrer Arbeit haben die Forschenden um Liu das von ihnen entwickelte KAN mit gewöhnlichen neuronalen Netzen verglichen, so genannten mehrlagigen Perzeptronen (kurz MLP). In einem ersten Test zogen sie dafür verschiedene bekannte Funktionen f(x1, x2, x3, …) = y mit dazugehörigen Daten x1, x2, x3, … und y heran. Aufgabe war es hierbei herauszufinden, wie rasch gewöhnliche MLPs und KANs anhand der Daten auf die zu Grunde liegende Funktion f schließen können. Wie sich herausstellte, konnten KANs die Funktionen wesentlich schneller annähern als MLPs vergleichbarer Größe.
Anschließend haben die Fachleute KANs an realen Problemen getestet, etwa dem Lösen partieller Differenzialgleichungen. Dabei handelt es sich um Gleichungen, die von Ableitungen abhängen und insbesondere in der Physik eine wichtige Rolle spielen. In der Regel haben solche Gleichungen keine exakten Lösungen, so dass man auf Computer angewiesen ist, um Ergebnisse zu erzielen. Wie Liu und seine Kollegen herausfanden, liefern KANs auch bei diesen Aufgaben genauere Resultate als MLPs, also herkömmliche neuronale Netzwerke.
KANs are amazing! pic.twitter.com/1djEZuVhOk
— Valeriy M., PhD, MBA, CQF (@predict_addict) May 2, 2024
Darüber hinaus wendeten die Forschenden das neue Netzwerk auf aktuelle wissenschaftliche Probleme an, unter anderem solche aus dem mathematischen Bereich der Knotentheorie. Eine der Hauptfragen des Gebiets hat damit zu tun, wie sich herausfinden lässt, ob verschiedene zweidimensionale Darstellungen von Knoten in Wirklichkeit ein und demselben Knoten entsprechen. 2021 haben Geordie Williamson und seine Kollegen neuronale Netzwerke genutzt, um diese Frage anzugehen, und dabei bisher ungeahnte Zusammenhänge offengelegt. Wie Liu und sein Team nun zeigten, können KANs genau dasselbe Resultat hervorbringen – allerdings mit weniger Aufwand. Während Williamson und sein Team ein neuronales Netz mit etwa 300 000 Parametern trainieren mussten, erzielte das KAN mit bloß 200 Parametern bessere Ergebnisse.
»KAN looks more and more like it’s going to change EVERYTHING«Rohan Paul, Softwareentwickler
Die Forschenden um Liu zeigen sich optimistisch, ihre neuen Methoden auf eine Vielzahl von Problemen anwenden zu können: von der Mathematik über die Physik bis hin zur Verbesserung von Sprachmodellen. Und auch auf Social Media gibt sich die KI-Community begeistert: »A new era of ML has started!«, »The Kolmogorov–Arnold Networks (KAN) looks more and more like it’s going to change EVERYTHING«, »The next AI revolution«. Ob der Hype um KANs wirklich begründet ist, wird sich aber erst in der Praxis zeigen.
»KANs sollten auch in den Bereichen beurteilt werden, in denen MLPs gut funktionieren«, sagt Kersting. »Ohne einen solchen Vergleich ist es unklar, ob KANs eine viel versprechende neue Alternative sind.« Gleichzeitig betont der Informatiker jedoch den Wert der neuen Arbeit. »Das Theorem wieder in die Aufmerksamkeit der Community zu bewegen, finde ich aber sehr gut. Die Anwendung sind spannend, auch wenn sie nicht gerade im Hauptfokus der Deep-Learning-Community stehen.«
Die bisher stärkste Einschränkung der neuen Methode ist das langsame Training: Für dieselbe Anzahl an Parametern braucht ein KAN etwa zehnmal so lange wie ein gewöhnliches MLP. Das wird vor allem dann zum Problem, wenn man den Ansatz für große Sprachmodelle nutzen möchte, die durch ihren schieren Umfang bereits ein sehr langes Training erfordern. Doch die Lerngeschwindigkeit von KANs könnte sich verbessern lassen, schreibt Liu auf »X«: »Der Physiker in mir hat meine Programmierer-Persönlichkeit unterdrückt, so dass ich bisher nicht versucht habe, die Effizienz zu optimieren.« Durch die enorme Aufmerksamkeit, die der Ansatz aktuell erfährt, lässt sich diese Schwäche vielleicht schon bald ausräumen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.