Hirnforschung: Vorbild Gehirn
Es wäre äußerst mühsam und zeitraubend: Hunderte Fotos von Katzen und Millionen Bilder von anderen Dingen und Lebewesen müsste sich ein kleines Kind ansehen, bis endlich der Groschen fällt und es einen Stubentiger auf Anhieb als solchen erkennt. Die vier Beine allein sind es nicht. Dieses Merkmal teilen die meisten Säugetiere. Die Schnurrhaare? Auch Waschbären haben solche. Es ist schließlich die Summe aus unzähligen Eigenschaften, die das Wesen einer Kreatur ausmacht. Wäre das Gehirn von Kindern so aufgebaut wie ein künstliches neuronales Netz, müsste es riesige Datenmengen »konsumieren«, um einen einzigen Begriff zu lernen.
Doch zum Glück reichen einige wenige Beispiele aus. Die Mutter zeigt auf ein Tier im Bilderbuch und sagt: »Guck mal, da sitzt eine Katze!« Spätestens beim zweiten Mal hat das Kind begriffen und erkennt zukünftig alle möglichen Katzen – ob weiß oder gefleckt, liegend oder laufend. Denn unser Gehirn ist erstaunlich gut darin, Unterschiede zwischen Dingen zu erfassen und Prototypen zu bilden.
Was kleinen Kindern im Handumdrehen gelingt, könnten bald auch die künstlichen neuronalen Netze schaffen. Denn in den letzten Jahren machte die KI-Forschung gigantische Fortschritte. Wenig überraschend kommen dabei entscheidende Impulse immer häufiger aus den Neurowissenschaften.
Für Schlagzeilen sorgt derzeit das so genannte Deep Learning, was auf Deutsch so viel heißt wie »tief gehendes Lernen«. Dieses Rechenverfahren orientiert sich grob am Aufbau des Gehirns, indem es ein dicht verwobenes Netz aus Nervenzellen simuliert. Wie ihr natürliches Vorbild lernt es aus Erfahrung, indem es die Stärke der künstlichen Nervenverbindungen ändert, bis es einen gewünschten »Output« produziert – und beispielsweise das Gesicht eines Menschen auf einem Bild erkennt.
Die künstlichen Netze sind hierbei in verschiedenen Schichten oder Ebenen angeordnet, die zunehmend komplexere Merkmale verarbeiten. Gilt es beispielsweise Objekte auf einem Bild zu identifizieren, registrieren die »Neurone« der ersten Ebene analog zur Netzhaut des Auges lediglich die Helligkeitswerte der einzelnen Pixel. Die folgende Schicht bemerkt, dass einige der Pixel zu Kanten verbunden sind, während die darauf folgende zwischen horizontalen und vertikalen Linien unterscheidet. Das geht so weiter bis zur letzten Ebene: Der Algorithmus erkennt ein Gesicht, weil er eine Nase und zwei Augen im richtigen Abstand zueinander ausgemacht hat.
Soll ein künstliches neuronales Netz lernen, Menschen auf einem Bild zu erkennen, bekommt es meist zehntausende Fotos vorgesetzt – bei so genannten überwachten Trainingsverfahren ergänzt durch eine wichtige Zusatzinformation: ob tatsächlich ein Mensch abgebildet ist oder nicht. Mit jedem »gesehenen« Bild verbessert das Programm sein Urteil, bis es nach ausgiebigem Training schließlich zuverlässig Menschen auf Fotos erkennt.
Stoppschild oder Werbebanner?
»Das Verfahren des Deep Learning hat uns gezeigt, dass künstliche neuronale Netze mit großen Datenmengen viel Interessantes lernen können«, sagt der Neuroinformatiker Helge Ritter von der Universität Bielefeld. Dazu gehört nicht nur die Fähigkeit, Gesichter auf Bildern zu identifizieren, sondern etwa auch, gesprochene Sprache zu verschriftlichen oder autonome Autos an roten Ampeln und Stoppschildern zum Bremsen zu bringen. »Mit sehr großen Datenmengen können sie geradezu menschliche Leistungen erzielen.«
Doch warum lernen Menschen so viel schneller und benötigen dabei deutlich weniger Beispiele? »Wir nehmen an, dass das unter anderem an unserem Gedächtnis liegt«, so Ritter. »Wir verfügen über verschiedene Gedächtnisformen, die uns das Lernen ermöglichen. Forscher versuchen inzwischen, diese künstlich nachzubilden.«
Besonders interessieren sich Informatiker für das episodische Gedächtnis, das bestimmte Aspekte vergangener Erlebnisse festhält. Eine Schlüsselrolle spielt dabei der Hippocampus, über den die neuen Erfahrungen in das Gehirn »eingespeist« werden. Verfestigt und abgelegt werden sie dann in der Hirnrinde, genauer im Neokortex, und zwar vor allem während des Schlafs und in Ruhephasen. Um sie in das Langzeitgedächtnis zu überführen, spielt das Gehirn beim Schlafen diejenigen Aktivitätsmuster im Hippocampus erneut ab, die bereits während des eigentlichen Erlebnisses aufgetreten sind.
Dieses Phänomen beobachteten Forscher erstmals bei Nagetieren: Während Ratten durch ein Labyrinth liefen, feuerten so genannte Platzzellen im Hippocampus, die jeweils einen bestimmten Ort repräsentierten. Während die Tiere schliefen, wiederholte sich das Aktivitätsmuster der Zellen – ganz so, als würden sie ihren Streifzug noch einmal vor dem geistigen Auge Revue passieren lassen. Störten die Wissenschaftler sie dabei, konnten sich die Ratten bei folgenden Tests schlechter orientieren.
Dieses Wissen machten sich Forscher um den Informatiker und Neurowissenschaftler Demis Hassabis von DeepMind, einem britischen Google-Unternehmen, zu Nutze. Ihr künstliches neuronales Netz lernte 2015, klassische Atari-Spiele zu meistern. Als Input bekam es lediglich die farbigen Pixel des Bildschirms und den Spielstand vorgesetzt. Als Output gab das Netz Befehle für Joystickbewegungen aus. Das Training beruhte auf dem Prinzip des Verstärkungslernens. Dabei werden günstige Entscheidungen nachträglich belohnt, in diesem Fall durch Gewinnpunkte. Der Algorithmus lernte nach und nach durch Versuch und Irrtum dazu.
Ein wichtiger Bestandteil des Netzes war eine Art Wiederholungstaste. Es speicherte einen Teil der Trainingsdaten und wiederholte sie »offline«, um dadurch erneut von seinen Erfolgen und Fehlern zu lernen. Wie sich zeigte, war Hassabis Netz anderen Algorithmen im direkten Vergleich überlegen. Es begriff nicht nur besser, sondern vor allem auch schneller.
Es gebe derzeit verschiedene Ansätze, künstlichen neuronalen Netzen eine Art episodisches Gedächtnis zu verpassen, so Helge Ritter. Das Ziel sei bei allen das gleiche: die Lernzeit zu verkürzen und die Zahl der für das Training notwendigen Beispiele zu reduzieren. Einen Weg dazu zeigten 2016 der Informatiker Oriol Vinyals und sein Team von DeepMind auf. Sie statteten ein Netz mit einer »Memory-Komponente« aus, die für die Aufgabe nützliche Informationen speicherte.
Zwar mussten sie für das Training weiterhin auf einen großen Datensatz mit 60 000 Bildern zurückgreifen. Er umfasste Dinge und Lebewesen aus 100 Kategorien wie Autos und Katzen mit jeweils 600 Beispielbildern. Doch immerhin hatte der Algorithmus bereits nach 80 Kategorien das Prinzip »verstanden«. Dann ging es ganz fix: Bei den restlichen 20 erkannte er neue Dinge, etwa einen Hund, schon nach einem Beispielbild wieder. Das ist ähnlich wie beim Menschen. Auch wir lernen schneller, wenn wir vorhandene Kenntnisse auf neue Inhalte anwenden können.
Fataler Filmriss
Doch was passiert mit dem erworbenen Wissen? Kann es einfach bis ins Unendliche erweitert werden? Lange Zeit kämpfte die KI-Forschung mit einem Problem, das man in Fachkreisen »katastrophales Vergessen« nennt – ein echter Horror für Informatiker: Kaum hat ein Algorithmus mühsam eine Aufgabe gelernt, werden die nun dazu passenden »gewichteten Verknüpfungen« des neuronalen Netzes auf eine zweite Aufgabe hin optimiert und letztlich dadurch überschrieben. Daher konnte beispielsweise auch das Netz von DeepMind immer nur ein einziges Atari-Spiel einstudieren.
Auch in diesem Fall können sich die KI-Forscher am menschlichen Gehirn orientieren. Wenn beispielsweise eine Maus etwas Neues lernt, verstärkt das die beteiligten Synapsen zwischen den Nervenzellen. Dabei wachsen Dornenfortsätze, kleine Auswüchse auf den verzweigten Dendriten, die den Empfängerteil der Synapsen enthalten. Nun kommt das Entscheidende: Die Dornen bleiben auch bei neuen Lernvorgängen erhalten, und die synaptische Übertragung ist dauerhaft erhöht. So wird die entsprechende Erfahrung konsolidiert, also verfestigt.
Auf diesen Kniff des biologischen Vorbilds griffen Forscher von DeepMind und dem Imperial College London in einer Studie von 2017 zurück. Sie setzten dafür erneut auf das künstliche neuronale Netz, das schon zwei Jahre zuvor erfolgreich die Atari-Spiele gemeistert hatte. Doch diesmal statteten sie es mit einem Algorithmus aus, der nach dem Vorbild der synaptischen Konsolidierung arbeitete. Er sollte die simulierten Verknüpfungen, die bereits für eine vorherige Aufgabe verstärkt worden waren, »verriegeln« und so vor dem Überschreiben schützen.
Das zahlte sich aus: Mit dem zusätzlichen Algorithmus studierte das Programm nun mehrere Spiele nacheinander ein, ohne vom »katastrophalen Vergessen« heimgesucht zu werden. Damit gelang ihm etwas, was für uns Menschen ganz selbstverständlich ist, nämlich kontinuierlich zu lernen. Allerdings schnitt dieses Allrounder-Netz in jedem einzelnen Spiel schlechter ab als Systeme, die auf ein einziges Spiel spezialisiert waren. Sein besonderes Lernverhalten stellte der Algorithmus übrigens nicht nur beim Atari-Spielen unter Beweis, sondern auch beim Erkennen von handgeschriebenen Ziffern.
»Bislang wirken sich beim Deep Learning alle Lernschritte auf das gesamte Neuronennetz aus«, erklärt Helge Ritter. In Zukunft sollten Systeme stattdessen selbst entscheiden, welche Lerninhalte sie bündeln und vor dem Überschreiben schützen, so der Neuroinformatiker. Im Gehirn werde das zum Teil durch spezialisierte Gedächtnissysteme gelöst. Sensomotorische Erfahrungen etwa gelangen in ein eigenes Gedächtnissystem, Seheindrücke in ein anderes und Klänge von Geräuschen in ein drittes.
Ein Blick fürs Wesentliche
Wenn künstliche neuronale Netze auf Fotos nach Gegenständen oder Personen suchen, haben sie eine Menge zu tun. Denn in den Schichten der ersten Verarbeitungsstufe schenken sie allen Pixeln des Bilds die gleiche Aufmerksamkeit. Das visuelle System von Primaten geht da ungleich effizienter vor. Es visiert nicht alle Bildbereiche gleichzeitig an, sondern wählt bestimmte Abschnitte aus, denen es besonders viel Aufmerksamkeit schenkt. Deshalb lassen wir unseren Blick gezielt hin- und herschweifen, um das Wichtigste zu erfassen. Dazu bewegen wir unsere Augen drei- bis fünfmal pro Sekunde in kurzen, ruckartigen Sprüngen, so genannten Sakkaden, die das frontale Augenfeld im Stirnhirn steuert. Beim Lesen etwa wandert die Fovea, der Bereich des schärfsten Sehens auf der Netzhaut, so von Wort zu Wort.
2015 statteten der Informatiker Jimmy Lei Ba und sein Team von der University of Toronto ein neuronales Netz mit einem Mechanismus aus, der menschlichen Sakkaden ähnelte. Es sollte seine »visuelle Aufmerksamkeit« gezielt steuern lernen, um nur die für die Aufgabe relevanten Bereiche eines Fotos zu untersuchen. Jede Sakkade bringt eine neue Bildpartie in den »Blick« des Algorithmus. Mit Hilfe dieser Ausschnitte aktualisiert er sein internes Abbild des Fotos Schritt für Schritt. Er bestimmt dabei die nötige Länge und Richtung der Blicksprünge, so dass sich die untersuchten Bildbereiche nicht überschneiden. »Das hat mehrere Vorteile«, so Ritter. »Unter anderem hilft es, den Rechenaufwand zu reduzieren.«
So gelang es dem neuronalen Netz der Forscher, mehrstellige Hausnummern auf Google-Street-View-Aufnahmen zu erkennen, und zwar zuverlässiger und schneller als ältere Algorithmen ohne Sakkadenfunktion. Das galt vor allem dann, wenn die Forscher zuvor den Bildausschnitt um die Hausnummer herum vergrößert hatten, es also mehr für die Aufgabe nicht relevante Bereiche gab.
Ein vergleichbares neuronales Netz erkannte nach kurzer Trainingszeit handgeschriebene Ziffern, indem es nacheinander kleine Ausschnitte der Schrift analysierte, anstatt alle Bereiche zugleich.
Die rasanten Fortschritte der KI-Forschung dürfen allerdings nicht darüber hinwegtäuschen, dass die Unterschiede zum natürlichen Vorbild immer noch gewaltig sind. Das fängt schon bei der grundsätzlichen Architektur an. »Künstliche neuronale Netze bestehen aus sehr einfachen Einheiten, welche die eingehenden, mit verschiedenen ›Gewichtungen‹ versehenen Informationen lediglich aufsummieren«, sagt der Physiker und Neuroinformatiker Laurenz Wiskott von der Universität Bochum. Echte Nervenzellen hingegen verfügen über stark verzweigte Dendritenbäume. Je nachdem, wo in einem solchen Baum die Information ankommt, hat das unterschiedliche Auswirkungen. Treffen etwa die Signale zweier Zellen zur selben Zeit nebeneinander auf das nachgeschaltete Neuron, können sie sich gegenseitig verstärken. »Das passiert bei einem künstlichen Netz in der Regel nicht.«
Doch das ist nicht alles. »Bei den gängigen Algorithmen ist jedes Neuron kontinuierlich aktiv«, sagt Helge Ritter. Echte Nervenzellen im Gehirn verfolgen hingegen viel komplexere zeitliche Aktivitätsmuster. »Sie sind überwiegend untätig und senden nur ab und zu einen Impuls aus.«
Viele Eigenschaften des Gehirns sind nach heutigem Stand noch meilenweit davon entfernt, in künstlichen neuronalen Netzen realisiert zu werden – etwa die Fähigkeit zur Imagination. Kopfschmerzen bereitet KI-Forschern derzeit etwa das Transferlernen, also Problemlösungen auf andere, vergleichbare Situationen zu übertragen. Für Menschen ist diese Gabe ein Segen: Wir können beispielsweise schneller eine neue Fremdsprache lernen, wenn wir bereits eine andere beherrschen.
In Ansätzen versuchen Forscher derzeit, diese Fähigkeit mit so genannten progressiven neuronalen Netzwerken nachzubilden. Hierbei werden mehrere künstliche Netze miteinander verknüpft, damit sie erworbene Kenntnisse teilen und in gewissem Maß auf neue Aufgaben übertragen können.
»Auch wenn Deep-Learning-Netzwerke aktuell Furore machen, sind sie im Vergleich zu unserem Gehirn sehr einfache Strukturen«, bestätigt Laurenz Wiskott. »In der Regel werden sie darauf trainiert, eine bestimmte Aufgabe zu bewerkstelligen, etwa Gesichter zu erkennen.« Und darin seien sie inzwischen sogar besser als die meisten Menschen. Für das Transferlernen fehle ihnen aber die Flexibilität. Zum einen, weil die wenigsten über ein Gedächtnis verfügen, zum anderen, weil sie nicht reflektieren können. »Sie leisten zwar bereits Enormes, aber im Grunde sind sie noch ziemlich dumm.« Irgendwie auch beruhigend.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.