Computer-Bilderkennung: Menschliches Niveau ist endlich erreicht
Die modernsten Systeme zur automatisierten Bilderkennung sind inzwischen praktisch genauso gut wie der Mensch: Wenn sie auf einer beliebigen Fotografie einen Gegenstand lokalisieren und identifizieren sollen, machen sie im Schnitt genauso wenige Fehler wie ein geübter Betrachter. Zu diesem Schluss kommen Forscher um Olga Russakovsky von der kalifornischen Stanford University. Über ihre auf dem Preprint-Server arXiv veröffentlichten Ergebnisse berichtet "Technology Review".
Konkret hatten die Wissenschaftler die Ergebnisse der ImageNet Large-Scale Visual Recognition Challenge ausgewertet, bei der KI-Programme gegeneinander antreten. Es gilt, den Inhalt von über einer Million Bilder auszuwerten. Was auf den Abbildungen zu sehen ist, haben zuvor menschliche Begutachter per Hand verzeichnet. Der Wettbewerb gilt als der bedeutendste und prestigeträchtigste in der Forscherszene.
Als eine Art "historischen Moment in der Bildverarbeitung" beschreiben Russakovsky und Team den Wettbewerb im Jahr 2012. Damals ließ die Software SuperVision der University of Toronto die Konkurrenz weit hinter sich. SuperVision erreichte eine Fehlerrate von knapp über 16 Prozent, während die Konkurrenz in den Jahren zuvor bei deutlich über 20 Prozent lag. Seitdem purzeln die Werte: Der diesjährige Gewinner GoogLeNet landete bei 6,7 Prozent (Google berichtet darüber auf seinem "Research Blog").
Der Durchbruch gelang den Forschern durch Einsatz von Deep-Learning-Verfahren (siehe "Wie Maschinen lernen lernen"), die sich grob an der Arbeitsweise des Gehirns orientieren: Wie dieses bestehen sie aus einem Netzwerk interagierender "Neurone", die eine Anzahl von hierarchisch angeordneten Schichten bilden. In jeder Schicht werden ausgewählte Merkmale der Szene verarbeitet – je höher die Schicht, desto komplexer die Merkmale. Wie das Netzwerk die Bildinformationen bewältigt, erlernt es eigenständig durch Training an Millionen von Bildern.
Menschen nur geringfügig besser
Derartige Deep-Learning-Netze seien inzwischen auf menschlichem Niveau angelangt, schlussfolgern die Forscher: Die Erfahrung mit den menschlichen Begutachtern, die die Bildinhalte zuvor kategorisieren müssen, hätten gezeigt, dass die Fehlerrate des Durchschnittsbetrachters gerade einmal 1,7 Prozent niedriger liegt als die von GoogLeNet, dem diesjährigen Besten.
Mensch und Computer hätten allerdings unterschiedliche Stärken und Schwächen: Während der Computer bei sehr schmalen Objekten in Schwierigkeiten gerät – hier reicht womöglich das "Auflösungsvermögen" der Netzwerkarchitektur nicht aus –, muss der Mensch häufiger bei präzisen Kategorisierungen passen, etwa bei der Frage, welcher Art ein Baum angehört oder welcher Rasse ein Hund.
Schreiben Sie uns!
Beitrag schreiben