Künstliche Intelligenz: Die 5 Schulen des Maschinenlernens
Als der Mensch die ersten klugen Maschinen schaffen wollte, bildete er Wissen in Form von Symbolen ab. Er schrieb Handlungsvorschriften, so genannte Algorithmen, die Schritt für Schritt definierten, was die Maschine tun sollte. Das genügte, um gute Schachcomputer zu kreieren. Die Maschinen wussten und taten aber nur, was ihnen einprogrammiert wurde.
Eine lernende Maschine kann mehr als das: Sie sucht in eingehenden Daten nach Mustern, um auf zu Grunde liegende Regeln zu schließen: Sie »trainiert« ein mathematisches Modell, das die Muster oder Regeln abbildet und dazu dienen kann, neue Daten zu kategorisieren oder Vorhersagen zu treffen. Das bekannteste Grundgerüst für ein solches Modell ist ein künstliches neuronales Netz. Es kann aus Rohdaten von Fotos Muster extrahieren und so eine Katze darauf erkennen oder Hautkrebs von einem harmlosen Muttermal unterscheiden. Oder es schließt auf eine kontinuierliche Größe, etwa einen Börsenkurs oder die Lebenserwartung eines Patienten.
Enthalten die Rohdaten eine solche Zielvariable, handelt es sich um »überwachtes« Lernen. Von »nicht überwachtem« Lernen spricht man, wenn nach beliebigen Mustern in den Daten gesucht wird und so Kategorien entstehen, beispielsweise Gruppen von ähnlichen Kunden. Eine weitere Variante ist das »Verstärkungslernen« mit Hilfe von Feedback, eine Methode, mit der die Google-KI DeepMind das Spielen lernt. Daneben gibt es weitere Varianten wie das aktive Lernen, bei dem zum Beispiel ein Roboter Situationen aufsucht, die ihm fehlende Informationen liefern könnten.
Diese Unterscheidungen findet man so oder ähnlich in vielen Fach- und Lehrbüchern wieder. Der Informatiker Pedro Domingos von der University of Washington betrachtet das Maschinenlernen aus einer anderen Perspektive: Welche Lernprinzipien stecken hinter den Algorithmen? Wie entsteht Wissen überhaupt? Ausgehend von verschiedenen wissenschaftlichen Paradigmen unterscheidet er in seinem viel gelobten Buch »The Master Algorithm« fünf Schulen des maschinellen Lernens.
1. Die Konnektionisten
Aus dieser Schule stammen die derzeit beliebtesten Modelle. Sie hat ihren Ursprung in den Neurowissenschaften und der Idee, die Funktionsprinzipien von Hirnzellen und ihren Verknüpfungen nachzuahmen. Ein solches neuronales Netzwerk lernt, indem Neurone Synapsen bilden oder verändern. Das erste Computermodell eines künstlichen Neurons, das »Perzeptron«, entstand in den 1950er Jahren. Ähnlich seinem biologischen Vorbild verrechnet es eingehende Informationen und aktiviert gegebenenfalls das nachfolgende Neuron.
Heutige Modelle bestehen aus mehreren Neuronenschichten, daher der Name »Deep Learning«. Zu den bekanntesten Arten zählen die Stars der Bilderkennung, die Convolutional Neural Networks (CNN), sowie die Recurrent Neural Networks (RNN), die sich besonders beim maschinellen Sprachverstehen bewährt haben. Zu ihrem Erfolg trug eine Erfindung der deutschen Informatiker Sepp Hochreiter und Jürgen Schmidhuber bei, das Long Short-Term Memory (LSTM), eine Art Kurzzeitgedächtnis für künstliche neuronale Netze.
Das Herzstück des Deep Learning ist die »Backpropagation«, meist übersetzt als »Fehlerrückführung«. Der Algorithmus ermittelt, wie eingehende Informationen gewichtet werden müssen, damit das richtige Ergebnis herauskommt, beispielsweise ein Katzenfoto als solches erkannt wird. Mangels Rechenpower ließ sich aber lange nicht belegen, dass dieses Lernprinzip funktionierte.
2006 lieferte Geoffrey Hinton von der University of Toronto den Beweis und küsste damit die KI-Forschung aus ihrem Winterschlaf. Deep Learning habe »den State of the Art in Spracherkennung, Objekterkennung und anderen Gebieten wie Medikamentenentwicklung und Genomforschung dramatisch verbessert«, schrieb er 2015 mit seinen Kollegen Yann LeCun, heute KI-Forschungsdirektor von Facebook, und Yoshua Bengio von der University of Montreal. 2019 erhielten sie gemeinsam den Turing Award, die höchste Auszeichnung in der Informatik.
2. Die Symbolisten
Der älteste Stamm der KI-Forschung hat seine Wurzeln in der Logik und stellt Wissen und Regeln mit Symbolen dar. Eine klassische logische »Deduktion« leitet aus zwei Prämissen eine zwingende Konsequenz ab. Beispiel: »Sokrates ist ein Mensch; Menschen sind sterblich. Ergo ist Sokrates sterblich.« Die Grundidee der Symbolisten ist es, dieses Prinzip umzudrehen und aus der Konsequenz auf eine unbekannte Prämisse zurückzuschließen, Induktion genannt. Ein Beispiel dafür: »Sokrates ist ein Mensch. Er ist sterblich. Ergo: Menschen können sterben.«
Der Informatiker Ross Quinlan, ein prominenter Symbolist, kombinierte Symbole zu Entscheidungsbäumen, etwa um das Ergebnis von Schachproblemen vorherzusagen. Die Nachfahren seiner Algorithmen stecken heute in vielen Softwarepaketen, sind der Öffentlichkeit aber wenig bekannt – womöglich wegen ihrer unanschaulichen Namen, »ID3«, »C4.5« und »C5.0«.
Ein Computer kann heute anhand von solchen wissensbasierten Systemen Hypothesen formulieren und Experimente entwickeln. Ein Beispiel ist der Forschungsroboter »Eve«, Nachfolgemodell von »Adam«. In einem britischen Labor arbeitet Eve daran, neue Medikamente unter anderem für Tropenkrankheiten zu entdecken. Ein weiterer Star der Zunft ist »Cyc«, eine Datenbank für Alltagswissen, die Millionen von Regeln eingespeichert hat und weiter wachsen soll. Das Ziel: ein künstlicher gesunder Menschenverstand.
3. Die Evolutionisten
Das mächtigste Lernprinzip, so Domingos, ist die Evolution. Sie hat alles Leben auf der Erde, darunter Gehirn und Logik, hervorgebracht. Warum also nicht Programme schreiben, die die natürliche Selektion simulieren? Das ist die Idee hinter diesem vergleichsweise unbekannten KI-Zweig und seinen genetischen Algorithmen.
Hier treten Bits an die Stelle von Basenpaaren, die bei Mensch und Tier die Erbanlagen weitertragen. Die Bits stehen für Merkmale, in denen sich die Individuen einer Population unterscheiden und die mehr oder weniger vorteilhaft sein können. Jedes Individuum, das sich in der virtuellen Welt des Programms bewährt, kann sich »fortpflanzen«. Seine Merkmale werden neu kombiniert und an die nächste Generation weitergegeben.
Bei einer weiteren Variante, dem »evolutionären Lernen«, muss sich gleich ein ganzes Programm als überlebenstauglich erweisen. Im »Creative Machines Lab« von Robotiker Hod Lipson an der Columbia University stecken diese Programme in Robotern. Die Fittesten unter ihnen geben ihre »DNA« an ihre Nachfahren weiter: Sie dürfen den 3-D-Drucker programmieren, der die Bauteile für die nächste Generation von Robotern produziert – wobei erfolgreiche Programmpaare ihre Zweige kreuzen. Lipson will den Maschinen unter anderem beibringen, sich selbst zu simulieren. Er hofft, auf diese Weise, kombiniert mit Deep Learning, eines Tages ein künstliches Bewusstsein zu schaffen.
4. Die Bayesianer
Diese Schule beschreibt Domingos als eine Art Religion und ihre Anhänger als Gläubige. Ihre Bibel besteht aus einem einzigen Satz, dem Bayes-Theorem, ersonnen im 18. Jahrhundert von einem englischen Pfarrer und Mathematiker namens Thomas Bayes. Die Formel ist den Bayesianern der einzige Halt in einer unsicheren Welt; hundertprozentige Sicherheit kennen sie nicht. Lernen bedeutet für sie, mehr oder minder wahrscheinliche Hypothesen an neue Beobachtungen anzupassen.
Für dieses Update brauchen sie den Satz von Bayes; mit seiner Hilfe lassen sich selbst widersprüchliche Befunde miteinander verrechnen. Die Bayes-Formel definiert die bedingte Wahrscheinlichkeit, dass eine Hypothese zutrifft, gegeben die beobachteten Daten:
P(Hypothese | Daten) = P(Hypothese) x P(Daten | Hypothese) / P(Daten)
Beispiel: Wie wahrscheinlich ist es, dass ein Patient HIV-positiv ist (Hypothese), wenn der HIV-Test positiv ausfällt (Daten)? Man multipliziert dazu die Prävalenz von HIV in den USA (0,3 Prozent, also P = 0,003) mit der Wahrscheinlichkeit, dass der Test bei Krankheit positiv ausfällt (P = 0,99). Das Ergebnis teilt man durch den Anteil aller positiven Testergebnisse, geschätzt 1 Prozent (P = 0,01). Das ergibt P = 0,297, eine Wahrscheinlichkeit von rund 30 Prozent! Wer zu einer Hochrisikogruppe zählt, muss allerdings mit einer höheren Prävalenz und somit einem höheren Risiko rechnen.
Die Bibel des Bayesianer besteht aus einem einzigen Satz, dem Satz von Bayes
Mit solchen bedingten Wahrscheinlichkeiten trennt der Naive Bayes-Klassifikator unter anderem E-Mails in Spam und Nicht-Spam. So genannte Markow-Modelle schließen von beobachteten Daten auf verborgene Zustände zurück, zum Beispiel von Aminosäuren auf die Struktur eines Proteins. Und mit bayesschen Netzen prognostizieren autonome Fahrsysteme ungewisse Ereignisse im Straßenverkehr. Die Knoten der Netze repräsentieren Ereignisse, Pfeile ihre Abhängigkeiten. Für seine Erfindung der bayesschen Netzen erhielt der US-Informatiker Judea Pearl 2011 den Turing Award. Sein Artikel »Reverend Bayes on inference engines«, so heißt es, habe 1982 die probabilistische Revolution in der KI eingeleitet.
5. Die Analogisierer
»Die Analogie ist das Herz des Denkens«, sagt der Physiker und Kognitionswissenschaftler Douglas Hofstadter, ein prominenter Vertreter der fünften Schule. Sein Kredo birgt eine simple Strategie: Macht der Mensch eine neue Beobachtung, erinnert er sich an ähnliche Beobachtungen. Schon eine einzige Erfahrung genügt, um sie auf einen unbekannten Fall anzuwenden. So funktioniert auch der schnellste aller Lernalgorithmen: Nearest-Neighbor genannt. Er ordnet eine neue Beobachtung schlicht jener Kategorie zu, die die meisten ähnlichen Fälle enthält. In der Regel entscheiden diese »nächsten Nachbarn« nach dem Mehrheitsprinzip, gewichtet nach dem Grad der Ähnlichkeit.
Star der Gruppe sind die Support Vector Machines (SVM), entwickelt von dem russischen Statistiker Vladimir Vapnik. Um die Jahrtausendwende galten sie als die besten maschinellen Lernalgorithmen. Beispiel: Auf einer Karte sind Städte zweier verschiedener Länder eingezeichnet, doch die Ländergrenzen fehlen. Bekannt ist nur, welche der Städte zu welchem Land gehören. Support Vector Machines berechnen die Grenze dazwischen und erlauben so, weitere Punkte auf der Karte dem einen oder anderen Land zuzuordnen.
Nach Ähnlichkeiten suchen auch so genannte Recommender Systems, die Algorithmen hinter Produktempfehlungen etwa bei Netflix. Im einfachsten Fall bekommen Zuschauer Filme aus der Kategorie jener Filme vorgeschlagen, die ihnen am besten gefallen haben. Das heute verbreitete »Collaborative Filtering« extrahiert aus den Zuschauervorlieben abstrakte Geschmacksdimensionen und wählt dann die Filme aus, die von Menschen mit ähnlichem Geschmack gut bewertet wurden.
»Wenn der Master-Algorithmus nicht auf Analogien beruht, dann zumindest auf etwas Ähnlichem«
Pedro Domingos, University of Washington
Der Master-Algorithmus
Tatsächlich mehren sich Hinweise darauf, dass unser Gehirn Ähnlichkeiten und Unterschiede räumlich repräsentiert. Beim Anblick von ähnlichen Dingen feuern demnach Neurone, die nah beieinander liegen. »Die von den Orts- und Rasterzellen erzeugten mentalen Karten stellen ein Grundprinzip des menschlichen Denkens dar«, glauben Jacob Bellmund und Christian Doeller vom Max-Planck-Institut für Kognitions- und Neurowissenschaften in Leipzig.
Auch Pedro Domingos glaubt an dieses Prinzip: »Wenn der Master-Algorithmus nicht auf Analogien beruht, dann zumindest auf etwas Ähnlichem.« In seiner Doktorarbeit kombinierte er Analogien mit Logik und kreierte einen Algorithmus, der aus ähnlichen Fällen abstrakte Regeln ableitet, dazu aber Ausnahmen definiert. Derzeit versucht er, Logik und bayessche Netze unter einen Hut zu bringen, um zugleich komplexes Weltwissen und Unsicherheiten abzubilden. Sein Leitmotiv: die fünf Schulen zu einem universellen Lernprinzip zu vereinen. Bislang bleibt es bei Teilerfolgen: »Wir haben den Master-Algorithmus noch nicht gefunden.« Womöglich, vermutet er, fehle noch immer etwas ganz Fundamentales.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.