Visuelle Wahrnehmung: Stereosehen und das zyklopische Auge
Wie konstruiert unser Gehirn aus den Netzhautbildern beider Augen eine dreidimensionale Ansicht der Welt? Bisherige Antworten waren wenig überzeugend, doch eine neuro-physikalische Theorie liefert nun eine elegante Erklärung.
Gibt man Dreijährigen eine Röhre zum Hindurchschauen in die Hand, setzt sie immerhin ein Drittel von ihnen nicht vor ein Auge, sondern genau in die Mitte zwischen beiden Augen. Dass dies nichts nützt, lernen wir allerdings schnell; unter den vierjährigen Kindern begeht nur noch jedes zehnte diesen "zyklopischen" Irrtum. Immerhin ließ er sich vor wenigen Jahren sogar bei Erwachsenen nachweisen.
Der Fehler hat Methode: Wir haben zwar kein Auge auf der Nasenwurzel, aber unser Gehirn konstruiert sich eins. Dieses virtuelle Auge ist die einfache neuronale Lösung eines Problems, das dadurch entsteht, dass wir die Welt mit zwei Augen betrachten.
Dabei entstehen zwei Ansichten aus leicht verschiedenen Blickwinkeln. Legt man sie übereinander, erscheinen die meisten Objekte mit Doppelkonturen, weil sie wegen der perspektivischen Verschiebung nicht exakt zur Deckung kommen. Diese Verschiebung enthält Informationen über die Entfernung des jeweiligen Objekts: Je größer sie ist, desto näher liegt es. Aus diesen beiden Bildern konstruiert unser Gehirn ein drittes, das obendrein Entfernungsinformationen beinhaltet. Es bildet die Basis des räumlichen, dreidimensionalen Sehens.
Erste systematische Experimente zur Frage des Stereosehens machte bereits 1858 Peter Ludwig Panum, damals Professor für Physiologie an der Universität Kiel. Er fand heraus, dass wir die beiden unterschiedlichen Retinabilder – zumindest in einem kleinen Raumbereich, der heute seinen Namen trägt – zu einem neuen Bild ohne Doppelkonturen fusionieren. Diese neue, vom Gehirn konstruierte Ansicht zeigt uns, wie ein paar Jahre später Ewald Hering an der Karls-Universität zu Prag folgerte, die Dinge so, als würden wir sie aus der Perspektive eines virtuellen, zyklopischen Auges zwischen den beiden realen Augen wahrnehmen.
Wirkliche Theorien zum Stereosehen gibt es aber erst seit etwa zwanzig Jahren. Die meisten wurzeln in der klassischen, "symbolverarbeitenden" Forschungsrichtung der Künstlichen Intelligenz und behandeln nur die Entfernungsberechnung aus Stereobildern, nicht aber die Fusion zur zyklopischen Ansicht. Dabei nimmt man an, dass aus den Rohdaten zunächst Merkmale ("Symbole") extrahiert werden, die sich selbst unter variablen Lichtverhältnissen gut lokalisieren lassen – etwa die Kanten von Objekten. Spätere Verarbeitungsstufen benutzen dann nur noch die extrahierten Symbole.
Um die perspektivischen Verschiebungen zwischen den Bildern und daraus die Entfernungen zu bestimmen, müsste das Gehirn zu jedem im linken Bild entdeckten Symbol das passende im rechten finden. Wie sich herausstellt, ist diese Zuordnungs- und Suchaufgabe ein kompliziertes kombinatorisches Problem – sogar eines, das Mathematiker in die Kategorie "schlecht gestellter" Probleme einordnen: Es gibt dafür nämlich keine eindeutige Lösung. Jedem im linken Bild gefundenen Symbol könnte zunächst jedes im rechten detektierte entsprechen. Natürlich ist nur eine der vielen möglichen Zuordnungen die richtige; die Zahl der falschen steigt mit der Zahl der detektierten Symbole stark an.
Viel Arbeit ist investiert worden, um dieses komplizierte Zuordnungsproblem zu lösen, doch genau genommen ist es erst durch die Annahme der Symbolverarbeitung entstanden. Jede Symbolbeschreibung vereinfacht, und genau hierin liegt das Problem: Erweitert man die verwendete Symbolbeschreibung, indem man nicht nur "Objektkanten" registriert, sondern auch, ob sie hell oder dunkel sind, halbiert sich sofort die Zahl der möglichen falschen Zuordnungen. In neueren Varianten dieser Theorien wird deshalb auch unterstellt, dass das visuelle System eine ganze Reihe von sehr unterschiedlichen Merkmalen extrahiert.
Das ändert aber nichts daran, dass stabile Merkmale wie Objektkanten nur in wenigen Bereichen einer Szene auftreten; nur dort erlaubt eine symbolbasierte Theorie, Entfernungen zu bestimmen. Für alle anderen Bereiche ist man auf intelligentes Raten angewiesen, was deutlich schlechtere Ergebnisse liefert als das menschliche Sehsystem.
Man kann sich dem Problem jedoch von einer ganz anderen Seite nähern. Die neuronalen Strukturen, die für so unterschiedliche Aufgaben wie Texturanalyse, Bewegungswahrnehmung und Stereosehen verantwortlich sind, ähneln sich auf verblüffende Weise. Benutzen sie gemeinsame Verarbeitungsprinzipien? In der Tat – alle drei Wahrnehmungsleistungen stellen sich auf der algorithmischen Ebene als sehr ähnlich dar.
Der Zusammenhang lässt sich folgendermaßen verdeutlichen. Bewegt man seinen Kopf quer zur Blickrichtung, verschieben sich alle im Blickfeld befindlichen Objekte horizontal – und zwar umso mehr, je näher sie liegen. Ordnet man nun die während einer solchen Bewegung aufgenommenen Bilder zu einem Bildstapel an, finden sich darin charakteristische Texturlinien: Solche, die fast gerade nach hinten verlaufen, entsprechen weiter entfernten Objekten, wohingegen stärker geneigte zu näheren Objekten gehören.
Bewegungssehen läuft also auf eine Texturanalyse hinaus, wenn auch in einem abstrakten Texturraum. Und wie steht es mit dem Stereosehen? Dabei wird eine Szene zwar nicht durch eine bewegliche Kamera abgetastet, aber man kann die Bilder beider Augen als Anfangs- und Endpunkt einer gedachten Kamerabewegung zwischen den beiden Augenpositionen auffassen. Vom kompletten Bildstapel bleiben dann zwei Scheiben übrig, doch reicht dies für eine Entfernungsanalyse gerade aus.
Filterung relevanter Daten aus dem Signalrauschen
Ein Problem bleibt allerdings: Ein einzelnes bildverarbeitendes Neuron "sieht" immer nur einen sehr kleinen Ausschnitt der Welt. Die Informationen, die es aus diesem so genannten rezeptiven Feld extrahieren kann, sind manchmal irrelevant für die aktuelle Aufgabenstellung und oft einfach falsch. Das Ausgangssignal solcher Neuronen wirkt als störendes Rauschen, das die eigentliche Nachricht überdeckt. Beim Stereosehen wird dies besonders deutlich, da hier entlang der "Zeit"-Achse nur an zwei Orten, nämlich den beiden Augenpositionen, Daten aufgenommen werden.
Wie lässt sich die Unterscheidung zwischen Rauschen und Daten treffen? Eine interessante Möglichkeit besteht darin, einfach die physikalischen Eigenschaften der Außenwelt zu nutzen, die das jeweilige neuronale Netzwerk analysiert. Im Falle des Stereosehens funktioniert das so: Jede Gruppe von entfernungsberechnenden Neuronen wird durch das Objekt, auf das sie reagieren, in genau zwei verschiedene Untergruppen geteilt. Die Mitglieder der einen Untergruppe – und das ist der überwiegende Teil – kommen zu irgendwelchen zufälligen Schätzwerten. Nur eine Minderheit von Neuronen, deren rezeptive Felder gerade passend liegen, kann die gesuchte Objektentfernung in etwa richtig bestimmen. Diese Neuronen zeichnen sich nun gerade dadurch aus, dass sie in etwa dasselbe Ergebnis liefern; sie sind daher, im Gegensatz zu ihren Kollegen, miteinander kohärent.
Überraschenderweise gibt es eine recht einfache neuronale Verschaltung, die diese Kohärenz feststellen kann. Die Gruppe der Neuronen, die annähernd dasselbe Ergebnis liefern, entwickelt nämlich durch schwache laterale Kopplungen nach kurzer Zeit miteinander synchronisierte Signale. Diese können sehr effektiv an nachgeschaltete Verarbeitungsstufen weitergeleitet werden.
Die Signale der inkohärenten Restgruppe bleiben dagegen asynchron und damit zu schwach, um nachgeschaltete Stufen zu beeinflussen. Im Endeffekt werden durch die Synchronisation die korrekten Daten aus dem Rauschen herausgefiltert. Mit ihnen lässt sich dann im Falle des Stereosehens die gesuchte Entfernung des Objekts berechnen.
Interessant wird es, wenn man die Eingangssignale der aufgefundenen kohärenten Neuronengruppen in Abhängigkeit vom Raumwinkel darstellt. Dadurch entsteht eine neue Ansicht der Szene, die aber, wie sich herausstellt, in ihrer Perspektive weder mit der des linken noch des rechten Auges übereinstimmt. Bei genauerem Hinsehen entdeckt man, dass die neue Ansicht die Szene aus der Sicht genau jenes zyklopischen Auges zeigt, das Hering schon vor über hundert Jahren postuliert hat.
Mittlerweile gibt es auch bereits eine erste technische Umsetzung der Kohärenztheorie des Stereosehens in Hardware-Form. Die Firma 3D-Image-Processing GmbH in Augsburg hat dazu eine spezielle Einsteckkarte für PCs realisiert. Darauf bildet ein frei konfigurierbarer Logikbaustein mit bis zu zwei Millionen Logikgattern, ein so genannter FPGA (field-programmable gate array), die Operationen des neuronalen Netzwerkes in Silizium nach.
Die stereoskopischen Daten für die Einsteckkarte können über den PC, eine speziell konstruierte Stereokamera oder beliebige industrielle Videokameras eingespeist werden. Das Stereomodul vermag pro Sekunde fast vierzig Bilder zu verarbeiten, deren Auflösung bis zu 1024x1024 Pixel betragen kann. Für jedes Pixel errechnet es einen sehr genauen Entfernungswert, da mit dem Verfahren noch Bildverschiebungen erkannt werden können, die deutlich kleiner als ein einzelnes Pixel sind. Eine solche Rechenleistung erforderte bislang mehrere große, miteinander vernetzte Parallelrechner.
Das kohärenzbasierte Stereoverfahren gibt – im Unterschied zu anderen Stereotechniken – für jedes Pixel auch an, für wie zuverlässig das neuronale Netzwerk den angegebenen Entfernungswert hält. Das ist für viele Applikation in der industriellen Bildverarbeitung wichtig, zum Beispiel in der Robotik oder bei Fahrer-assistenzsystemen. Andere Anwendungen – etwa in der Automatisierungstechnik – profitieren gleichfalls von dieser Datenvalidierung. Auch über den Einsatz einer miniaturisierten Version als Blindenhilfe wird nachgedacht.
Aus: Spektrum der Wissenschaft 4 / 2002, Seite 10
© Spektrum der Wissenschaft Verlagsgesellschaft mbH
Schreiben Sie uns!
Beitrag schreiben