Maschinen von morgen: Intelligent - und neugierig!
Stellen Sie sich vor, Sie würden zum allerersten Mal »Super Mario Bros.« spielen: Eine Welt in 8-Bit-Grafik öffnet sich, hellblauer Himmel, gekachelter Steinboden, darin die Figur eines kleinen, untersetzten Mannes in Latzhose. Dann tut sich erst einmal nichts. Die Figur namens Mario schaut nach rechts; Sie entschließen sich, ihn in diese Richtung loslaufen zu lassen. Nach einigen Schritten taucht über Marios Kopf eine Ziegelsteinreihe auf und dann ein Wesen, das wie ein wütender Pilz aussieht. Ein Tastendruck, und Mario springt in die Höhe, seine vier Pixel große Faust in die Luft gereckt. Und nun? Vielleicht gleichzeitig nach rechts bewegen und hochspringen lassen? Gut. Dann stößt Mario plötzlich mit seinem Kopf gegen einen der schwebenden Steine; der biegt sich nach oben und schwingt wie eine Sprungfeder wieder zurück. Der Latzhosenträger wird Richtung Erde auf den wütenden Pilz geschleudert und zerquetscht ihn unter sich. Dann hüpft er locker von den Überresten. Kupferfarbene Boxen mit leuchtenden Fragezeichen tauchen auf: Was kommt als Nächstes?
Für alle, die in den 1980er Jahren aufgewachsen sind, dürfte die Szene vertraut sein – doch so alt ist der Spieler nicht, dem man auf Pulkit Agrawals YouTube-Kanal bei seinen ersten Gehversuchen in »Super Mario Bros.« zusehen kann. Vor allem: Er ist gar kein Mensch oder ein Lebewesen. Er ist, genau wie Mario, eine Software, programmiert von Agrawal und Kollegen der University of California in Berkeley. Das Team forscht daran, wie man dem Computer beibringen kann, eine unbekannte Aufgabe möglichst effizient zu bewältigen. Dafür haben ihn die Wissenschaftler mit Algorithmen für maschinelles Lernen ausgestattet, die Agrawal und seine Kollegen Deepak Pathak, Alexei A. Efros und Trevor Darrell vom Berkeley Artificial Intelligence Research Lab entwickelt haben – und die sie mit einer ungewöhnlichen Zutat versehen haben: Neugier.
»Man kann sich Neugier als eine Art Belohnung vorstellen, die vom Programm selbst erzeugt wird, damit es mehr über seine Umwelt in Erfahrung bringt«, sagt Agrawal. Von intrinsischer Motivation spricht die kognitive Psychologie in einem solchen Fall: das Streben nach einer in uns selbst erzeugten Belohnung. Vielleicht erging es Ihnen gerade beim Lesen der Spielbeschreibung so, dass Sie wissen wollten, wie es weitergeht, dass Sie herausfinden wollten, was hinter der nächsten Ecke auf Mario wartet – das ist intrinsische Motivation.
Menschen reagieren auch auf extrinsische Motivation, also auf Anreize, die auf die Umgebung zurückgehen. Beispiele dafür sind der Lohn, der am Monatsende auf Ihrem Konto landet, oder die Waffe, die Ihnen ein Räuber vor die Nase hält. Programmierer nutzen dieses Prinzip der extrinsischen Motivation beim so genannten verstärkenden Lernen (auch »reinforcement learning« genannt). Während des Trainings erhält die Software Pluspunkte, wenn sie die gewünschte Aufgabe erfüllt; unerwünschtes Verhalten führt zu Abzügen.
Mit Zuckerbrot und Peitsche kommt man in der künstlichen Intelligenz (KI) schon recht weit. Allerdings stößt man auch bald an Grenzen, die sich aber womöglich dadurch überwinden lassen, dass man sie mit intrinsischer Motivation kombiniert. Sie könnte Software flexibler und effizienter lernen lassen – weniger wie eine starre Maschine, sondern mehr wie Mensch und Tier. Zugute kommen den Entwicklern dabei Erkenntnisse aus Psychologie und Neurobiologie ebenso wie jahrzehntealte Konzepte in der KI. Denn nach wie vor gilt: »Nichts ist wirklich neu beim maschinellen Lernen«, wie es Rein Houthooft von OpenAI, einer unabhängigen Organisation zur Erforschung künstlicher Intelligenz, ausdrückt.
Dabei geht es um viel mehr als um Highscores in Videospielen. Eine wirklich neugierige KI hätte unzählige Anwendungsfälle, sagt Trevor Darrell, der Kodirektor des Berkeley Artificial Intelligence Lab. »Sagen Sie mir ein Einsatzgebiet, ich nenne Ihnen das passende Beispiel. Im Haushalt wollen wir Putzen und Aufräumen automatisieren. In der Logistik sollen Lagerbestände bewegt und verteilt werden. Fahrzeuge sollen sich durch schwieriges Gelände bewegen. Und Rettungsroboter müssen Gebäude durchsuchen und Menschen in Not finden. In all diesen Fällen haben wir ein wirklich schwieriges Problem zu lösen: Wie kann man eine Maschine bauen, die von selbst herausfindet, wie sie ihre Aufgabe bewältigt?«
Das Problem mit den Punkten
Mit verstärkendem Lernen als wichtigem Bestandteil hat es Googles DeepMind »AlphaGo« sogar geschafft, den weltbesten menschlichen Go-Spieler zu schlagen, was lange als nahezu aussichtsloses Unterfangen für eine KI galt. Im Detail mag es kompliziert sein, dieses Lernverfahren erfolgreich einzusetzen – die Grundidee ist aber immer einfach: Lass den Agenten eine echte oder virtuelle Welt erforschen und gib ihm für das Erreichen bestimmter Zustände in dieser Welt eine mathematisch definierte Belohnung. Ziel des Lernverfahrens ist es, durch häufige Wiederholungen – und wenn es etwas gibt, was Computer besser können als Menschen, dann sind es Wiederholungen – herauszufinden, mit welchen Aktionsmustern, genannt Strategien, er den Wert der insgesamt zu erwartenden Belohnungen maximiert. Im Idealfall erreicht er mit Hilfe der erlernten Strategien den gewünschten Endzustand (zum Beispiel: »Gewinne bei Go«), ohne dass der Entwickler vorab entscheiden musste, welche Schritte am ehesten zu diesem Ziel führen.
»Es gibt keinen Gott, der uns permanent sagt, ›plus eins‹, wenn du das tust, oder ›minus eins‹, wenn du das tust«
Pulkit Agrawal
Die von außen vorgegebenen Belohnungen halten den Agenten also beim Lernen auf Kurs. Je genauer man sie definieren kann, desto besser schneidet der Agent ab. Viele Retro-Computerspiele haben hier den Vorteil, ein simples extrinsisches Belohnungssystem in Form von Punkten anzubieten. (Außerdem lassen sich die pixeligen 2-D-Welten relativ einfach auf modernen Computern emulieren, so dass die KI viele Spielrunden in schneller Folge absolvieren kann.) »In der realen Welt gibt es aber kein Punktesystem«, erklärt Agrawal. Doch genau solche Umgebungen, in denen es keine vorab festgelegten, quantifizierbaren Ziele gibt, soll die KI letztendlich erkunden können.
Fast genauso große Probleme bereitet es, wenn die Umwelt die extrinsischen Belohnungen nur sehr sporadisch vergibt. Dann »weiß der Agent nicht, ob seine Handlungen richtig oder falsch sind«, sagt Houthooft. Wie eine Wärmesuchrakete, die ihr Ziel nicht erfassen kann, hat er »keine Möglichkeit, sich selbst durch die Umgebung zu führen, und spielt verrückt«.
Mehr noch: Ein mit großem Aufwand definiertes System von Belohnungen mag zwar im Einzelfall beeindruckende Leistungen hervorbringen, lässt sich aber nicht ohne Veränderungen auf einen anderen Kontext übertragen oder gar verallgemeinern – und müsste wiederum per Hand mühsam angepasst werden. Dabei ist es doch gerade der Sinn und Zweck der künstlichen Intelligenz, solche händischen Eingriffe zu vermeiden.
Statt einer Armada pseudointelligenter Agenten, die wie Raketen präzise vorgegebene Ziele treffen, erwarten wir von KI eher Software mit interner Steuerungsfähigkeit. »Sie belohnen sich doch auch selbst, oder?«, sagt Agrawal. »Es gibt keinen Gott, der uns permanent sagt, ›plus eins‹, wenn du das tust, oder ›minus eins‹, wenn du das tust.«
Neugier als Kopilot
Für Deepak Pathak, ein Mitglied von Darells Arbeitsgruppe in Berkeley und Hauptautor der jüngsten Veröffentlichung, ist Neugier kein schwammiges psychologisches Konzept, das man irgendwie in Computerkode übersetzen müsste. Neugier, sagt er, sei nichts anderes als »ein Modell, das einen Agenten anleitet, seine Umgebung trotz Hintergrundrauschen effizient zu erkunden«.
2016 begann er sich mit dem Problem der sporadischen Belohnungen zu beschäftigen. Wenn scorebasierte Spiele wie »Space Invaders« oder »Breakout« fortlaufend Belohnungswerte zur Verfügung stellen, hat der Algorithmus etwas, an dem er sich orientieren kann; mit der Kombination von Deep Learning und verstärkendem Lernen wurden hier zuletzt große Fortschritte erzielt. Eine ganz andere Sache ist es, wenn die Belohnung für ein gelungenes Spiel erst in weiter räumlicher und zeitlicher Ferne liegt. Schon etwas komplexere Spiele – und auch »Super Mario Bros.« gehört dazu – bringen die KI in Schwierigkeiten. Ganz abgesehen davon, dass Mario kombinierte Bewegungen ausführen muss (»rennen« + »springen«), um voranzukommen.
Gemeinsam mit Darrell und Efros entwickelten Pathak und Agrawal einen lernenden Agenten, den sie mit einem, wie sie es nannten, intrinsischen Neugiermodul (intrinsic curiosity module, ICM) ausstatteten. Dessen Aufgabe war es, den Agenten durch das Spiel zu ziehen, ohne dass dieser »verrücktspielte«, wie Houthooft sagen würde. Der Agent hatte dabei keinerlei Vorwissen darüber, wie »Super Mario Bros.« gespielt wird. Genau genommen spielte er nicht wie ein Anfänger, sondern wie ein neugeborenes Kind.
Die Inspiration dafür holten sich Agrawal und Pathak aus den Arbeiten der Entwicklungspsychologinnen Alison Gopnik von der University of California in Berkeley und Laura Schulz vom Massachusetts Institute of Technology. Die Forscherinnen konnten zeigen, dass Babys und Kleinkinder lieber mit Gegenständen spielen, durch die sie überrascht werden, als mit solchen, die ihnen dabei helfen, ein extrinsisches Ziel zu erreichen. »Man könnte diese Art Neugier so erklären: Die Kinder erstellen ein Modell von dem, was sie von der Welt wissen, und machen dann Experimente, um herauszufinden, was sie alles nicht wissen«, sagt Agrawal. Diese Experimente können alles sein, was in den Augen des Agenten – in diesem Fall des Kindes – zu ungewöhnlichen oder unerwarteten Ereignissen führt. Jedes Kind beginnt mit zufälligen Bewegungen der Gliedmaßen (auch »motor babbling« genannt), die neue Empfindungen hervorrufen, und geht dann zu besser koordiniertem Verhalten über: Was passiert, wenn man auf Spielzeug herumkaut? Was, wenn man einen Bauklötzchenturm umwirft?
»Der Agent nutzt die Neugier und lernt damit, was er zum Erforschen der Welt tun muss, sei es springen oder Feinde töten«
Pulkit Agrawal
In Pathaks und Agrawals Computerversion dieser kindlichen Neugier erzeugt die KI zunächst eine mathematische Beschreibung des aktuellen Bildschirminhalts. Dann sagt sie vorher, wie das Spiel mehrere Zeitschritte später aussehen wird. Solche Vorhersagen sind mit modernen Deep-Learning-Systemen gut machbar. Das ICM, das Pathak und Agrawal entwickelten, geht nun jedoch einen Schritt weiter. Es erzeugt ein intrinsisches Belohnungssignal, das davon abhängt, wie gut oder schlecht die Vorhersage war. Je höher die Fehlerrate – das heißt, je überraschter der Agent –, desto höher ist der Wert seiner intrinsischen Belohnung. Mit anderen Worten: Pathaks und Agrawals System wird für Überraschungen belohnt – dafür, dass sich etwas anders entwickelt als erwartet.
Dieses ausschließlich intern erzeugte Belohnungssignal lenkt den Agenten in Richtung noch unerforschter Regionen des Spiels, salopp gesagt macht es ihn neugierig auf etwas, was er noch nicht kennt. Je genauer das Vorhersagemodell des Agenten wird, desto stärker nimmt das Belohnungssignal des ICM ab. Das bringt den Agenten dazu, andere, überraschendere Situationen zu erforschen und damit das Belohnungssignal zu maximieren. »So kann die Erkundung beschleunigt werden«, meint Pathak.
Die Rückkopplung hat zur Folge, dass sich der Agent eigenständig aus seinem anfänglichen Zustand des Nichtwissens herausmanövriert. Zuerst ist der Agent neugierig auf jede Bewegung, die für seinen Pixelkörper verfügbar ist: Einmal rechts drücken lässt Mario nach rechts rutschen und wieder anhalten. Mehrmals drücken lässt ihn sich weiterbewegen, ohne sofortigen Stopp. Oben drücken, und er springt in die Luft und fällt wieder herab. Unten drücken hat keinen Effekt. Dieses simulierte »motor babbling« führt mit der Zeit zu sinnvollen Aktionen, die den Agenten im Spiel vorwärtsbringen, ohne dass man ihm dazu Wissen über das Spiel einprogrammieren müsste.
Weil abwärtsdrücken immer denselben Effekt hat, nämlich keinen, lernt der Agent schnell, den Effekt dieser Aktion genau vorherzusagen. Das reduziert das vom Neugiermodul erzeugte Belohnungssignal immer weiter. Aufwärtsdrücken hat dagegen verschiedenste, noch ganz unvorhersehbare Effekte: Manchmal hüpft Mario nach oben, manchmal hüpft er in Form eines Bogens; mal macht er einen kurzen Hopser, mal einen langen Sprung; manchmal kommt er nicht wieder herunter (wenn er beispielsweise durch Zufall auf einem Hindernis landet). All diese Ereignisse werden als Fehler des Vorhersagemodells registriert und führen zu einem Belohnungssignal vom ICM, das den Agenten weiter mit der Aktion experimentieren lässt. Nach rechts zu gehen und dabei mehr von der Spielewelt aufzudecken, hat einen ähnlichen Effekt. Den Drang nach rechts und oben kann man deutlich in Agrawals Demovideo erkennen: Innerhalb von Sekunden beginnt der KI-kontrollierte Mario wie ein hyperaktives Kleinkind nach rechts zu hüpfen und verursacht immer neue, immer noch weniger erwartete Reaktionen, sei es, dass er gegen einen schwebenden Ziegel stößt oder versehentlich einen Pilz zerquetscht. All das wiederum treibt die Erkundungstour weiter an.
»Der Agent nutzt die Neugier und lernt damit, was er zum Erforschen der Welt tun muss, sei es springen oder Feinde töten«, erklärt Agrawal. »Er wird nicht einmal fürs Sterben bestraft. Aber er lernt, wie er das Sterben vermeiden kann, nicht zuletzt, weil er dadurch seine Erkundungsmöglichkeiten maximiert. Das System ist damit selbstbestärkend – die Bestärkung kommt nicht aus dem Spiel.«
Nur nicht auf Neues hereinfallen – die »novelty trap«
Mit künstlicher Neugier beschäftigt sich die KI-Forschung schon seit den frühen 1990er Jahren. Die Suche nach Neuem lässt sich beispielsweise dadurch modellieren, dass man den Agenten darauf programmiert, bevorzugt unbekannte Zustände in seiner Umgebung zu erforschen. Das entspricht zwar gut unserem Alltagsverständnis von Neugier, hat aber einen gewichtigen Nachteil. Denn es führt dazu, dass der Agent in der Praxis an Stellen hängen bleibt, die lediglich seinen eingebauten Entdeckerdrang befriedigen, aber einer nützlichen Erforschung im Weg stehen.
Ein Beispiel wäre das Rauschen eines geschickt platzierten alten Röhrenfernsehers. Das Bildflackern würde sehr schnell die Neugier eines Agenten wecken, der lediglich auf der Suche nach Neuem ist. Denn eine Fläche mit zufällig aufblitzenden Lichtpunkten ist per Definition von einem Moment zum nächsten absolut unvorhersehbar. Da dem Agenten jedes Muster des Rauschens vollkommen neu erscheint, wird er auf Grund seiner intrinsischen Motivation nie wieder die Aufmerksamkeit von diesem speziellen, jedoch völlig nutzlosen Bereich wenden können. Er sitzt in der Falle.
Wie sich herausstellt, sind solche unvorhersehbaren, allerdings bedeutungslosen Elemente in jeder realistischen Umgebung, in der KI-Systeme nützlich wären, allgegenwärtig. Ein selbstfahrendes Lieferfahrzeug, das durch Neugier auf Neues angetrieben würde, käme vermutlich nicht einmal bis zur nächsten Kreuzung. »Angenommen, Sie fahren eine Straße entlang, der Wind bläst, und die Blätter eines Baums bewegen sich. Es wäre extrem schwierig vorherzusagen, wohin sich jedes Blatt bewegen wird. Wenn man eine pixelgenaue Vorhersage macht, dann erzeugen solche Effekte einen sehr hohen Vorhersagefehler, und die Neugier steigt und steigt. Das wollen wir vermeiden«, erklärt Agrawal.
Der Weg, den Agrawal und Pathak beschreiten, um ihren Agenten neugierig, aber nicht zu neugierig zu machen, besteht darin, das Sichtfeld des Agenten nicht mehr Pixel für Pixel in die Vorhersage einzuspeisen. Stattdessen geben sie ihrem »Mario« spielenden Agenten die Möglichkeit, die visuellen Rohdaten in eine abstrakte Version der Realität zu übersetzen. Das ist nicht nur weniger rechenintensiv als die Pixelvariante, sondern erleichtert es auch, ablenkende Inhalte herauszufiltern. Die Abstraktion baut ausschließlich Merkmale der Umgebung ein, die den Agenten beeinflussen können (oder die der Agent selbst beeinflussen kann). Womit der Agent also nicht interagieren kann, das wird er gar nicht wahrnehmen.
Dieser abgespeckte Merkmalsraum vereinfacht den Lernprozess des Agenten und verhindert zudem, dass sich der Agent durch neue, aber sinnlose Elemente in eine Falle manövriert. »Der Agent kann die Auswirkungen seiner Aktionen nicht dadurch besser vorhersagen, dass er beispielsweise die Bewegung der Wolken über seinem Kopf modelliert. Also schenkt er den Wolken keine Beachtung, wenn er neugierig ist«, erklärt Darrell.
Die Grenzen künstlicher Neugier
Doch auch dieses Modell der Neugier ist nicht perfekt, räumt Darrell ein. »Das System lernt, was relevant ist, aber es gibt keine Garantie, dass es immer Recht hat«, sagt er. Und tatsächlich schafft sein Agent auch nur den halben Weg durch das erste Level von »Super Mario Bros.«, bevor er in seinem eigenen lokalen Optimum in die Falle gerät. »An dieser Stelle ist eine große Lücke, über die der Agent springen muss. Hierzu muss er etwa 15 oder 16 kontinuierliche Aktionen in einer ganz bestimmten Reihenfolge durchführen. Weil er das jedoch einfach nicht schafft, stirbt er jedes Mal, wenn er dorthin geht. Und dieses Ergebnis kann er irgendwann exakt vorhersagen, wodurch er die Neugier darauf verliert, in dieser Richtung weiterzumachen«, erklärt Agrawal.
Letztlich besteht die größte Schwierigkeit darin, dass selbst Wissenschaftler, die sich jahrelang mit dem Thema der intrinsischen Motivation beschäftigt haben, immer noch nicht genau definieren können, was Neugier eigentlich ist. Laut Paul Schrater, Neurowissenschaftler und Leiter des Computational Perception and Action Lab der University of Minnesota, ist der Ansatz der Berkeley-Forscher »der intelligenteste, mit dem man in nächster Zeit einen Agenten dazu bringen kann, seine Umgebung selbstständig und automatisch zu erkunden«. Doch seiner Meinung nach hat das Neugiermodul weniger mit unserem intuitiven Konzept von Neugier als vielmehr mit Bewegungslernen und Bewegungssteuerung zu tun. »Es regelt Aspekte, die jenseits der Kognition liegen und eher mit dem zu tun haben, was der Körper macht«, sagt er.
Das Neue an der KI von Agrawal und Pathak liegt aus Sicht von Schrater eher darin, wie das Neugiermodul mit dem Agenten verknüpft ist. Dass dieser »Super Mario Bros.« nicht als Abfolge von Pixelbildern verarbeitet, sondern mit Hilfe eines Merkmalsraums, ähnelt seiner Ansicht nach ein Stück weit unserem Gehirn, das ebenfalls visuelle Merkmale extrahiert, die für eine bestimmte Aufgabe relevant sind.
Für Pierre-Yves Oudeyer, Forschungsleiter am INRIA (Institut national de recherche en informatique et en automatique) in Bordeaux, erscheint Neugier aber nur dann sinnvoll, wenn der Agent zumindest teilweise in die Umgebung eingebettet ist, sei es virtuell oder körperlich. Oudeyer forscht seit mehr als zehn Jahren daran, wie sich Neugier in ein Computerprogramm integrieren lässt. Im Grunde könne ein Agent überall Überraschendes entdecken, sagt er, weil die Welt groß und vielfältig ist. Das sei allerdings noch nicht ausreichend. »Wenn ein neugieriger Agent ohne eigenen Körper einen großen Merkmalsraum erkundet, wirkt das schnell wie eine rein zufallsgetriebene Exploration, weil seine Handlungen keinerlei Einschränkungen unterliegen«, erklärt Oudeyer. »Die Einschränkungen, die beispielsweise ein Körper mit sich bringt, vereinfachen die Welt.« Sie bündeln die Aufmerksamkeit und lenken die Erkundungen in eine bestimmte Richtung.
Doch nicht alle Agenten, die mit einem physischen Körper in der Welt präsent sind, benötigen intrinsische Motivation – Industrieroboter sind das beste Beispiel: Wenn es etwa nur darum geht, Fracht von A nach B zu bringen, tut es womöglich auch eine auf den Boden gezeichnete Linie. Ein eingebautes Neugiermodul wäre in diesem Fall reiner KI-Overkill.
Man könnte dann dem Agenten alles, was er wissen muss, im Voraus mitgeben, inklusive der richtigen Belohnung an den richtigen Stellen, erklärt Darrell. »Solche Probleme können wir seit zehn Jahren lösen. Aber bringt man einen Roboter in eine Situation, die nicht vorhersehbar ist, wie die Suche und Rettung von Menschen bei Katastrophen, muss der Agent vor Ort das Erkunden allein erlernen. Da geht es um mehr als um reines Kartieren. Er muss lernen, wie sich die eigenen Handlungen auf die Umgebung auswirken. Eins ist klar: Soll ein Agent selbstständig lernen, was in seinem Job zu tun ist, dann muss er neugierig sein.«
Als »echte« künstliche Intelligenz gilt der Öffentlichkeit ja oft nur genau das, was Computer noch nicht können. Sollten intrinsische Motivation und künstliche Neugier wirklich dabei helfen, Aufgaben zu erlernen, die sich heute noch nicht automatisieren lassen, dann »bin ich sicher, dass das bald jedes KI-System können soll«, sagt der OpenAI-Forscher Houthooft. »Die Schwierigkeit liegt dabei im Finetuning.« Ob virtuelle Welt oder echtes Leben: Die Neugier macht einen eben immer nur Schritt für Schritt besser. Auch wenn das bedeutet, eine Zeit lang an Level 1-1 von »Super Mario Bros.« zu scheitern.
Von »Spektrum der Wissenschaft« übersetzte und redigierte Fassung des Artikels »Clever Machines Learn how to Be Curious« aus »Quanta Magazine«, einem inhaltlich unabhängigen Magazin der Simons Foundation, die sich die Verbreitung von Forschungsergebnissen aus Mathematik und den Naturwissenschaften zum Ziel gesetzt hat.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.