OpenWebSearch: Der Traum einer offenen Suchmaschine
Es ist ein bisschen wie bei David gegen Goliath: Einige Fachleute aus Europa haben sich zusammengeschlossen, um einen der größten Softwaregiganten herauszufordern. Sie wollen erstmals den Weg für eine ernst zu nehmende europäische Alternative zur Suchmaschine von Google ebnen. Bisherige Versuche in diese Richtung sind an dieser komplexen Aufgabe gescheitert. Doch nun zeigen sich einige Expertinnen und Experten zuversichtlich, dass es gelingen kann.
Die US-amerikanischen IT-Konzerne Alphabet, Amazon, Apple, Meta und Microsoft teilen sich die wichtigsten Bereiche der digitalen Welt auf. Sie dominieren unter anderem den Markt für Betriebssysteme, Browser, Social Media, App-Marktplätze und Suchmaschinen. Staatliche Regulierung hat daran bisher wenig geändert. Damit verdienen die Unternehmen nicht nur sehr viel Geld – sie können auch etliche Informationen und Daten über ihre Nutzerinnen und Nutzer sammeln.
Glücklicherweise gibt es zu fast jedem Produkt der Big-Tech-Konzerne mindestens eine Alternative. Statt Whatsapp von Meta kann man den nichtkommerziellen Messenger Signal nutzen, statt Windows von Microsoft oder MacOS von Apple die PC-Betriebssystemfamilie Linux, statt Chrome von Alphabet oder Safari von Apple den Firefox-Browser. All diese Anwendungen haben den Vorteil, dass sie quelloffen sind. Das heißt, es ist für jeden einsehbar, was diese Produkte tun, etwa welche Daten sie sammeln.
Eine solche Alternative gibt es aber nicht zu jedem Produkt. Ausgerechnet auf dem hoch konzentrierten Markt der Suchmaschinen gibt es bislang keine ernst zu nehmende quelloffene Konkurrenz zu Google. Der Marktanteil der Alphabet-Suchmaschine liegt in Deutschland bei etwa 90 Prozent. Mit deutlichem Abstand folgt auf Platz zwei Bing von Microsoft mit rund sechs Prozent. Damit hat Google ein Quasimonopol in diesem Bereich. Nur China und Russland haben mit Baidu beziehungsweise Yandex eigene starke Anbieter. Ein solches Monopol ist bedenklich, wenn man sich klarmacht, welche Macht Suchmaschinen besitzen: Sie leiten Nutzerströme, verschaffen Inhalten Aufmerksamkeit oder können Informationen in der Unsichtbarkeit verschwinden lassen.
Suchmaschine | Marktanteil in Deutschland (April 2024) |
---|---|
84,54 % | |
Bing | 8,29 % |
Yahoo! | 3,73 % |
Yandex | 1,38 % |
DuckDuckGo | 0,84 % |
Ecosia | 0,75 % |
Zwar existieren auch Angebote wie Startpage, Ecosia, Yahoo!, DuckDuckGo oder Qwant. Bei genauerem Hinsehen stellen sie aber keine vollwertigen Alternativen dar, denn die Seiten arbeiten nicht autonom, sondern nutzen die Dateninfrastruktur anderer Suchmaschinen. »Sie leiten eine Suchanfrage an Google oder Bing weiter und erhalten passende Trefferlisten. Manche Anbieter übernehmen die Treffer unverändert. Andere reichern sie mit zusätzlichen eigenen oder externen Quellen an«, erklärt Dirk Lewandowski, Professor für Informationswissenschaft an der Hochschule für Angewandte Wissenschaften Hamburg. Die größte Herausforderung bei der Entwicklung einer eigenständigen Suchmaschine ist der Index: ein stets aktueller Überblick über möglichst alle Inhalte, die es im Internet gibt.
In einem Manifest hatte Dirk Lewandowski 2015 zusammen mit sechs anderen Wissenschaftlern und Wissenschaftlerinnen einen unabhängigen, öffentlich finanzierten Index gefordert. Doch den gibt es bis heute nicht. Alle bisherigen Versuche, den Suchmarkt vielfältiger zu gestalten, sind an einem solchen Index gescheitert.
Sammeln und aufbereiten
Grund dafür ist die schiere Größe des Webs. Aus einem Protokoll eines Gerichtsverfahrens gegen Google geht hervor, dass der Google-Index im Jahr 2020 etwa 400 Milliarden Pages umfasste – dabei handelt es sich um einzelne Seiten, die man potenziell als Treffer auflisten kann (etwa ist dieser Artikel, wenn Sie ihn online lesen, eine eigenständige Page, genauso wie jeder andere Artikel auf »Spektrum.de«).
Um einen Index zu erstellen, sind verschiedene Schritte nötig. Zuerst rufen Suchbots – so genannte Crawler, die das Internet durchsstöbern – Webadressen auf. Das tun sie immer wieder, um herauszufinden, ob die jeweiligen Pages noch online sind und ob sich Inhalte geändert haben. Die Crawler klicken dabei auf alle Links, die erscheinen, um neu hinzugekommene Pages zu finden. Zum Beispiel durchlaufen sie mehrmals pro Stunde eine Seite wie »Spektrum.de«, um festzustellen, ob ein neuer Artikel erschienen ist und diesen bei einer Nutzeranfrage ausspielen zu können.
In einem zweiten Schritt müssen die Inhalte aufbereitet werden. Ein Index ist keine bloße Sammlung, sondern auch eine Darstellung von Inhalten. »Würde man die Pages nur zusammentragen, wäre das vergleichbar mit einer Bibliothek, die alle Bücher sammelt und sie in einen Raum wirft«, sagt Lewandowski. Stattdessen muss man Ordnung schaffen. Dafür weist man jeder einzelnen Page eine Nummer zu, man »indiziert« sie.
Um die Pages nach ihrer Relevanz zu ordnen, kommt Textstatistik zum Einsatz. Welche Wörter kommen wie oft und an welchen Stellen vor? Der »PageRank«-Algorithmus von Google entscheidet, welche Page auf welcher Position in einer Trefferliste erscheint – und ist geheim. Den öffentlich zugänglichen Angaben des Unternehmens zufolge spielt unter anderem die Nutzerfreundlichkeit eine große Rolle. Google bevorzuge demnach Seiten, die Informationen leicht zugänglich präsentieren, schnell laden und für Smartphone-Bildschirme optimiert sind.
Doch das wichtigste Kriterium ist die »Linkpopularität«. Ist eine Webpage stark verlinkt, gilt das als Qualitätsmerkmal. Stammt der Verweis von einer Seite, die ihrerseits viele externe Verlinkungen auf sich zieht, werden die Links als besonders gewichtig gewertet. Dieses Konzept haben die Googlegründer Larry Page und Sergey Brin aus der Wissenschaft übernommen. Dort ist der »Impact Factor« einer wissenschaftlichen Fachzeitschrift umso höher, je häufiger ihre Artikel von anderen Veröffentlichungen zitiert werden. Page und Brin meldeten den PageRank-Algorithmus Anfang 1998 zum Patent an. Dieser Code verhalf Google zum Durchbruch. Vorherigen Suchmaschinen, die ausschließlich mit textstatistischen Methoden arbeiteten, fiel es schwer, die Qualität der Pages zu bemessen, etwa eine Kopie vom Original zu unterscheiden. Seither bekleidet Google eine Art Monopolstellung.
OpenWebSearch: Ein neuer Versuch
Ein Befreiungsschlag könnte nun von einem Ort kommen, an dem kaum jemand revolutionäres Potenzial vermuten würde. Am Starnberger See, der Wohlfühloase der Wohlhabenden Deutschlands, sitzt der 2018 gegründete Verein Open Search Foundation. Gegründet hat ihn der Geograf Stefan Voigt vom Deutschen Zentrum für Luft- und Raumfahrt, der dafür Universitäten und Forschungszentren aus verschiedenen europäischen Ländern zusammengetrommelt hat. Die Idee: Über die Gemeinschaftsinitiative OpenWebSearch.eu wollen sie mit vereinten Kräften einen europäischen Index erstellen. Dieser soll die Grundlage für unabhängige Suchangebote bilden. Bestenfalls, so hoffen die Beteiligten, soll dabei nicht nur eine einzelne Alternative zu Google entstehen, sondern viele verschiedene Ansätze und Angebote. Für ihr Vorhaben hat die Initiative OpenWebSearch.eu 8,5 Millionen Euro von der Europäischen Union erhalten.
OpenWebSearch sei ein Zusammenschluss europäischer Rechenkapazitäten, erklärt Michael Granitzer. Der Informatiker hat einen Lehrstuhl für Data Science an der Universität Passau und ist der Koordinator der Initiative. Von den Fördergeldern gehen rund zwei Millionen Euro an die Bayerische Akademie der Wissenschaften mit ihrem Leibniz-Rechenzentrum, 700 000 Euro an das IT Center for Science in Finnland und etwa 500 000 Euro an das IT4I Innovations National Supercomputing Centre der TU Ostrava in Tschechien. Auch das Kernforschungszentrum CERN in Genf und das Deutsche Zentrum für Luft- und Raumfahrt (DLR) stellen Rechenkapazitäten zur Verfügung.
Die Partner des Projekts arbeiten an konkreten Teilaspekten eines Webindex, sagt Granitzer. An den Universitäten Leipzig und Weimar etwa suche man nach Lösungen für die Vorverarbeitung von Webseiten: Wie lässt sich während des Crawlens filtern, was Text, Werbung und Navigationsinfrastruktur einer Website ist? Wie kann man pornografische Inhalte automatisiert erkennen? Was sind Indikatoren für Spam oder Betrug?
An der TU Graz arbeiten die Forschenden an ethischen und rechtlichen Fragestellungen sowie an konkreten Anwendungen, etwa an Suchangeboten, die sich auf wissenschaftliche Veröffentlichungen konzentrieren. Am CERN liegt das Register des Projekts: In diesem sind die bereits bekannten und gecrawlten Webadressen aufgelistet, ebenso wie die URLs, die die Suchbots zum ersten Mal oder immer wieder besuchen sollen. Der Wirtschaftspartner A1 Slovenia, die slowenische Tochter des österreichischen Telekommunikationskonzerns A1, entwickelt Szenarien, um einen offenen Suchindex wirtschaftlich tragbar zu machen.
Die Organisation, bei der die Fäden des Projekts zusammenlaufen, ist laut Granitzer der noch kleine Starnberger Verein Open Search Foundation. Dort gibt es beispielsweise verschiedene Arbeitsgruppen, bei denen sich die beteiligten Personen (meist Wissenschaftlerinnen und Wissenschaftler) unter anderem mit der Technik, Ethik, Recht oder der Wirtschaftlichkeit eines entstehenden freien Suchindex auseinandersetzen.
Der vor allem an der Universität Passau für das Projekt entwickelte Open Web Crawler namens OWLer basiert auf einer schon bestehenden Lösung, dem Open-Source-Baukasten StormCrawler. Doch im Herbst 2022 hat Hartmut Stein, ein pensionierter Softwareentwickler aus Deutschland, mit dem Serci Crawler eine Alternative vorgelegt, die schneller ist – und deshalb in den OWLer eingebaut wird.
Eine Zwei-Personen-Firma aus den Niederlanden arbeitet als externer Projektpartner an einer offenen Suchkonsole: »Open Console« ermöglicht es Betreiberinnen und Betreibern von Websites, neue Inhalte aufzubereiten, um beim Indizieren zu helfen. Alle Bausteine des Projekts – sei es die Technologie zum Crawling, zur Vorverarbeitung von Pages oder zum Aufbereiten – soll unter einer Open-Source-Lizenz veröffentlicht werden, also frei verfügbar sein.
Eine Vielfalt an Möglichkeiten
Das OpenWebSearch-Projekt werde sicher auch eigene Suchangebote entwickeln, erklärt Granitzer, allerdings nur als Prototypen, um zu zeigen, was möglich ist. Ziel sei es nicht, Google direkt Konkurrenz zu machen. »Es geht darum, überhaupt erst einmal Vielfalt auf dem Suchmarkt zu ermöglichen. Wir liefern den Suchindex, den Partner nutzen können, egal ob kommerziell oder nichtkommerziell.« Dabei werde es verschiedene Optionen geben: Die Partner können den gesamten Index herunterladen oder ausgewählte Teile anfordern, beispielsweise nur Treffer zu bestimmten Sprachen, Themen oder Regionen.
Mit einem unabhängigen öffentlichen Index sei vieles möglich: Es könnten Universal-Suchmaschinen als direkte Alternativen zu Google und Bing entstehen. Doch es ist auch einiges darüber hinaus denkbar. Etwa »vertikale« Suchmaschinen, die sich auf einzelne Erdteile oder nur auf wissenschaftliche Publikationen konzentrieren. »Argumente-Suchmaschinen« könnten zu Suchbegriffen Für und Wider gegenüberstellen. Möglich wäre auch, dass sich Nutzerinnen und Nutzer den Index zu einem Thema oder einer Gegend auf das Handy laden, damit die Suchanfrage privatsphärenfreundlich auf den eigenen Geräten erfolgt. Auch für die Forschung könnte ein solcher Index nützlich sein. Fachleute könnten die Daten zum Beispiel heranziehen, um zu ermitteln, wie viele Websites in Europa Hasskommentare enthalten oder kommerziell ausgerichtet sind.
Und natürlich gibt es jede Menge Anwendungen für generative künstliche Intelligenz. Der Index könnte große Sprachmodelle trainieren, die – vergleichbar mit ChatGPT – eigenständig Fragen beantworten. »Conversational Search« könnte eine Mischung aus klassischer Suche und Chatbot sein: Eine solche Suchmaschine liefert Trefferlisten, fasst diese zusammen, präsentiert die Ergebnisse in Sprachform und beantwortet Nachfragen. Als Nutzerin oder Nutzer unterhält man sich dann quasi mit der Suchmaschine.
»In den letzten 20 Jahren sind alle Versuche gescheitert«Dirk Lewandowski, Professor für Informationswissenschaft
Das EU-Projekt läuft bis August 2025. Am Ende soll der Prototyp eines Index stehen, der etwa die Hälfte des Webs umfasst. Laut Statusbericht gibt es (Stand April 2024) täglich einen Datenfluss von etwa einem Terabyte. Es wurden bisher 1,3 Milliarden URLs in 185 Sprachen, die sich auf 60 Terabyte summieren, gecrawlt und indiziert. Granitzer schätzt, dass sie damit etwa ein bis zwei Prozent des weltweiten Webs abdecken.
Wird der ehrgeizige Plan gelingen?
Vergangene Bemühungen, das Quasimonopol von Google zu brechen, waren ernüchternd: »In den letzten 20 Jahren sind alle Versuche gescheitert«, sagt Lewandowski. Mit der OpenWebIndex-Initiative hat Lewandowski vor rund zehn Jahren selbst versucht, etwas Vergleichbares aufzubauen. Man wollte damals gleich den ganz großen Wurf landen: mit Industriepartnern, die den Index bauen, und europäischen Fördergeldern, erinnert sich Lewandowski. Man habe Termine bei der EU-Kommission gehabt, um die Politik von ihrem Vorhaben zu überzeugen. Doch das sei misslungen: »Es gab die verbreitete Auffassung, dass der Zug bei Suchmaschinen abgefahren ist und man sich lieber auf andere Bereiche konzentriert.«
Der Initiative OpenWebSearch gegenüber zeigt sich Lewandowski nicht viel optimistischer – auch wenn diese bereits Fördergelder eintreiben konnte. Er habe zwar große Sympathie dafür, dass überhaupt etwas passiert. Doch das Budget von 8,5 Millionen Euro komme ihm aussichtslos wenig vor. Zudem sei die Initiative sehr akademisch: Sie umfasse seines Wissens nur Leute, die selbst nie wirtschaftlich im Suchmaschinengeschäft tätig waren. Das muss auch Michael Granitzer einräumen. Dennoch glaubt er, dass das Vorhaben gelingen kann.
Ob das Projekt OpenWebSearch von Erfolg gekrönt sein wird, kann nur die Zeit zeigen. Doch vielleicht schaffen es die »Kleinen«, mit genügend guten Ideen und Bemühungen den Technologieriesen etwas entgegenzusetzen. Davon würde die ganze Welt profitieren.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.