Automatische Astronomie: Maschinen, die auf Sterne starren
Forscher aus Belgien und den USA haben einen Algorithmus veröffentlicht, mit dem sich Galaxien in großem Maßstab automatisch klassifizieren lassen. Er basiert auf maschinellem Lernen, genauer auf künstlichen neuronalen Netzwerken, die sich an biologischen Prozessen orientieren. Solche "Deep-Learning-Netzwerke" haben zuletzt enorme Fortschritte in der Bild-, Gesichts- und Spracherkennung gemacht. Nun sollen sie Form, Größe und Gestalt von Galaxien bestimmen, was Astronomen erlaubt, Rückschlüsse auf die individuelle Entstehung der kosmischen Objekte und die Entwicklung des gesamten Universums zu ziehen.
Mit seinem Ansatz hat Sander Dieleman von der Universität Gent im letzten Jahr den Programmierwettbewerb "Galaxy Challenge" gewonnen. Zwar bilden Menschen bislang noch das Maß der Dinge bei der Einordnung der Himmelsobjekte, aber Dielemans Algorithmus stellte eine Genauigkeit unter Beweis, die der von Menschen fast ebenbürtig ist. Grundlage für den Wettbewerb war das Crowdsourcing-Projekt "Galaxy Zoo", für das rund 150 000 freiwillige Helfer online eine Klassifizierung der Galaxien aus dem Sloan Digital Sky Survey (SDSS) erstellten. Ein Fragenkatalog half ihnen bei der Galaxien-Einordnung. So mussten die Gutachter unter anderem festlegen, ob es sich um eine Spiral- oder eine elliptische Galaxie handelt, wie viele Arme sie hat und ob in ihrer Mitte eine charakteristische Wölbung, der so genannte Bulge, sitzt.
Galaxien zeigen, was das Universum formte
Um zu verstehen, wie Galaxien entstehen und wie sie sich entwickeln, braucht es zweierlei: zum einen den detaillierten Einblick in einzelne dieser Großobjekte, angefangen bei unserer Milchstraße. Zum anderen muss man möglichst genau wissen, welche Galaxientypen wie oft und wo im All vorkommen. Aus den Antworten auf diese Fragen gewinnen Forscher Hinweise auf die physikalischen Mechanismen, die unserem Universum seine heutige Gestalt gaben. "Wenn man nur die Bäume in einem Kilometer Entfernung um das eigene Haus studiert, entwickelt man ein sehr beschränktes Verständnis vom Gebiet der Botanik und der Vielfalt des pflanzlichen Lebens in unterschiedlichen Klimazonen", sagt Kyle W. Willet. Er ist Astronom an der University of Minnesota und war an der Veröffentlichung von Dielemans Ergebnissen beteiligt. Außerdem hat er zuvor die Galaxy Challenge mitorganisiert.
Die Astronomie ist keine Laborwissenschaft. Anders als in der Chemie oder der Physik lassen sich astronomische Ereignisse nicht auf der Erde nachstellen und beliebig oft wiederholen. Um dieses Problem zu lösen, versuchen Astronomen, möglichst viele gleichartige Objekte oder Ereignisse im Universum aufzuspüren und zu analysieren.
Dabei helfen die klassifizierten Galaxienkataloge. "Wir konnten so zum Beispiel die Bedeutung des aktiven Schwarzen Lochs im Zentrum von Balkenspiralgalaxien untersuchen“, sagt Willett. Es zeigte sich unter anderem, woher das Schwarze Loch seinen Treibstoff bezieht und welche Rolle Eigenschaften wie die Masse der Galaxie bei der Entwicklung von Balken und zentralem Schwarzen Loch spielen. "Die große Menge von Daten zu 20 000 Galaxien, die aus dem Galaxy-Zoo-Projekt stammten, war entscheidend dafür, dass wir die Effekte des Balkens separat betrachten konnten.“
Für die zweite Runde von Galaxy Zoo wurden mehr als 300 000 Galaxien aus dem SDSS klassifiziert, jede wurde im Schnitt 50 Freiwilligen vorgelegt. Diese mussten die Galaxien gemäß einem Entscheidungsbaum mit 11 Fragen und insgesamt 37 Antwortmöglichkeiten bewerten. Aus den Antworten der Freiwilligen ergab sich für jede der 37 Möglichkeiten ein Wahrscheinlichkeitswert, denn nicht alle Freiwilligen schätzten jedes der Bilder gleich ein. Am Ende entstand eine gewaltige Datenbank aller Klassifizierungen der menschlichen Beobachter – und damit gleichzeitig eine Art Goldstandard für die Computer bei der Galaxy Challenge.
Kann es der Computer mit dem Menschen aufnehmen?
Aufgabe der Maschinen war es, möglichst präzise die einzelnen Wahrscheinlichkeiten vorherzusagen. "Wir mussten nicht bestimmen, zu welcher Klasse eine Galaxie gehört, sondern welcher Anteil der Menschen eine Galaxie wie einordnet", schreibt Dieleman in einem Blogbeitrag zu seiner Lösung.
Sein siegreicher Algorithmus bestand aus einer Kombination von verschiedenen Modellen neuronaler Netze und lernte, indem er eine möglichst große Anzahl von Bildern – in diesem Fall von Galaxien – durchforstete. In den aufeinander aufbauenden Schichten seines Netzes bildete er währenddessen immer abstraktere Merkmale dieser Fotografien ab. Um den Fundus an Lernbeispielen maximal auszureizen, manipulierte Dieleman die Bilddaten. Die Aufnahmen wurden beschnitten, verkleinert, verschoben und gespiegelt. Zu guter Letzt nutzte er noch einen Kniff aus der Physik, um seinen Trainingssatz weiter zu vergrößern. Er drehte die Bilder der Galaxien, denn "im Weltall gibt es weder oben noch unten". So konnte er seinen neuronalen Netzwerken die Rotationssymmetrie von Galaxien antrainieren.
Mit jedem neu vorgelegten Beispiel aus den bereitgestellten Trainingsdaten wurden die neuronalen Netze besser. Dielemans erfolgreichstes Einzelmodell besaß sieben Schichten und 42 Millionen Optimierungsparameter. Insgesamt trainierte er 17 verschiedene Modelle, die sich an der Architektur des besten Modells orientierten, sich aber in Details von ihm unterschieden – jedes neuronale Netz besitzt andere Anfälligkeiten für Fehler beim Lernen der Trainingsdaten. Mittelt man aber über mehrere Modelle, so können sich diese antrainierten Fehler bei der Bildanalyse ausgleichen. Anschließend kann man die trainierten Modelle auf noch nicht klassifizierte Bilder ansetzen.
Je größer die Datenmenge, desto besser der Computer
Zwar wird schon seit etwa zwei Jahrzehnten versucht, die Auswertung von Himmelsdurchmusterungen zu automatisieren. Bislang waren die Ergebnisse aber zu ungenau. Das scheint sich mittlerweile geändert zu haben. Es gibt dafür mehrere Gründe: Noch vor wenigen Jahren waren Methoden wie das Deep Learning schlicht noch unbekannt, außerdem lagen nicht ausreichend Daten vor, an denen diese Netze hätten trainieren können. Erst dank dem Crowdsourcing-Ansatz von Galaxy Zoo sind diese nun vorhanden. Und schließlich erlauben es erst die schnellen Rechner der Gegenwart, solche Datenmengen überhaupt in akzeptabler Zeit abzuarbeiten.
Im Gegensatz zu crowdgetriebenen Ansätzen wie Galaxy Zoo lässt sich eine algorithmische Mustererkennung stark nach oben skalieren. Das wird die Arbeit an neuen, immer größeren Datensätzen erleichtern oder gar erst ermöglichen. "Die gute Performance von Dielemans neuronalen Netzen zeigt, dass man bei zukünftigen Projekten einen großen Teil der Analyse den Computern überlassen kann", sagt Kevin Schawinski von der ETH Zürich. Er ist einer der Begründer von Galaxy Zoo. An Dielemans Studie war er nicht beteiligt. Bald würden die Datenvolumen so groß, dass es gar nicht genug Menschen gebe, um alles zu analysieren. "Freiwillige werden dann eine andere Rolle übernehmen: Sie werden die Algorithmen trainieren, die Qualität der Arbeit der Computer kontinuierlich überprüfen und dabei hoffentlich auch Unbekanntes entdecken." Denn Neues können Computer bei Weitem nicht so gut identifizieren wie Menschen, so Schawinski. Bei "Standardgalaxien" hingegen ist der Maschinenblick dem menschlichen weit überlegen – zumindest in der Geschwindigkeit.
Schon in wenigen Jahren könnten wir auf diesen "Cyborg-Ansatz", wie Schawinski die Verbindung der Fähigkeiten von Mensch und Maschine für die Himmelsdurchmusterung nennt, angewiesen sein. Das Large Synoptic Survey Telescope ist ein Spiegelteleskop, dass den sichtbaren Himmel in drei Nächten vollständig fotografieren kann. Es soll 2019 in Chile seinen Betrieb aufnehmen und dann etwa zehn Milliarden Galaxienbilder schießen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.