Künstliche Intelligenz: »Go Explore« knackt die noch verbliebenen Atari-Spiele
Eine KI hat es geschafft, ohne jedes Vorwissen Highscores bei Computerspielen zu erreichen, die mindestens dem menschlichen Durchschnitt entsprechen, oft sogar selbst das Weltrekordniveau weit übertreffen. Möglich machte es eine kleine, aber entscheidende Erweiterung eines bewährten Verfahrens. Das System mit dem Namen »Go Explore« stellen nun Adrien Ecoffet von den Uber AI Labs in San Francisco und Joost Huizinga von der ebenfalls dort angesiedelten KI-Firma OpenAi in der Fachzeitschrift »Nature« vor.
Klassische Atari-Games aus der Frühzeit der Computerspiele-Ära sind ein gerne genutzter Testfall für künstlich intelligente Programme. Dabei lernt der Computer allein durch Versuch und Irrtum, möglichst viele Punkte zu erreichen. Reinforcement Learning oder Verstärkungslernen wird dieser Ansatz genannt. Er basiert darauf, dass sich der Computer merkt, welche seiner Aktionen am Ende zu einer »Belohnung«, etwa in Form eines guten Highscores, geführt haben.
An einigen der Atari-Spiele wie »Pitfall« und »Montezuma's Revenge« scheiterte das Reinforcement Learning allerdings bislang. Hier liegen (gelungene) Aktion und Belohnung oft so weit auseinander, dass das System stets in einer Sackgasse landet. Dem begegneten Ecoffet, Huizinga und ihr Team durch eine Art Gedächtnis. »Go Explore« merkt sich konkrete Zustände und geht (Go) immer wieder zu ihnen zurück, um von dort aus neu zu erkunden (Explore).
Das genügte für übermenschlich gutes Abschneiden bei den verbliebenen ungelösten Atari-Spielen, schreiben die Wissenschaftler in ihrer Publikation. Ergänzten sie das System mit Hintergrundwissen über das jeweilige Spiel, verbesserte sich die Leistung teils noch einmal deutlich.
Jener Brückenschlag zwischen statistischen KI-Ansätzen wie Reinforcement Learning oder Deep Learning auf der einen Seite und wissensbasierten Ansätzen auf der anderen sei der eigentliche Durchbruch der Studie, meint der KI-Experte Jan Peters von der TU Darmstadt gegenüber dem »Science Media Center«: »Sollte diese Aussage sich als verallgemeinerbar herausstellen, dann kann dies ein Zeitenwechsel in der KI sein. Für viele KI-Forscher wäre dies ein fast 70 Jahre alter Traum!«
Soll die Entwicklung praktischen Nutzen haben, muss sie sich künftig auch bei alltagsrelevanten Problemen bewähren und nicht nur im Testfall Computerspiel. Das Autorenteam sieht eine Anwendungsmöglichkeit in der Robotik. In ihrer Studie simulierten sie dazu einen Roboterarm, der Gegenstände in Fächer einsortieren soll, wobei sich einige der Fächer nur durch einen komplexen Mechanismus öffnen ließen. »Go Explore« stand also vor der Aufgabe, zu lernen, dass es nur dann ans Ziel kommt, wenn es bei den verschlossenen Fächern eine zunächst scheinbar sinnlose Aktion durchführt – nämlich den Mechanismus zu betätigen. Speziell an solchen Umwegen scheitern Systeme auf Basis des klassischen Reinforcement Learnings oft. Allerdings seien Roboterbauer eher mit anderen Problemen konfrontiert, die sich auch mit dem neuen System nicht lösen lassen, gibt Peters zu bedenken.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.