News: Wer suchet, der findet - jetzt auch im Internet
Die meisten populären Suchmaschinen im Internet wie Lycos oder AltaVista suchen nach Stichwörtern, die im Text von Webseiten enthalten sind. Wie viele Nutzer aus leidvoller Erfahrung wissen, kann dies bei einigen Themen zu Hunderten oder gar Tausenden von Ergebnis-Hinweisen führen. Der von Kleinberg entwickelte Algorithmus analysiert nach einer solchen Volltextrecherche die Art und Weise, wie Web-Seiten miteinander verknüpft sind. Die zugrundeliegende Annahme ist, daß die informativsten Seiten über ein bestimmtes Thema jene sind, auf die am häufigsten von anderen Seiten aus verwiesen wird.
Kleinbergs Methode kann mehr als nur Seiten mit nützlichen Informationen zu einem Thema identifizieren, die er authorities, also "Autoritäten", nennt. Es werden auch jene Seiten gefunden, die viele Verweise auf Seiten mit nützlichen Informationen zu dem gewünschten Thema enthalten. Solche Linksammlungen werden von ihm als hubs, das bedeutet "Verteiler", bezeichnet.
Die besten Autoritäten, sagt Kleinberg, sind jene, die auf die besten Verteiler verweisen, und die besten Verteiler sind wiederum jene, die Links auf die besten Autoritäten enthalten. Kleinberg verhindert, daß dies ein Ringschluß wird, indem er die Beziehungen mehrere Male berechnet und sich dabei einem idealen Ergebnis immer ein Stückchen weiter nähert. Diese Technik wird als Hyperlink-Induced Topic Search (HITS) bezeichnet. Ein von Kleinberg geschriebenes Suchprogramm, welches auf HITS basiert, beginnt mit einer gewöhnlichen Textsuche zu einem Thema mit Hilfe einer Suchmaschine wie AltaVista. Damit wird ein Grundbestand von ungefähr 200 Seiten aufgebaut, die das eingegebene Stichwort enthalten. Dieser Bestand wird dann um alle Seiten erweitert, die mit Seiten im Grundbestand verknüpft sind. Der ausgebaute Bestand kann dann 1 000 bis 3 000 Seiten umfassen.
Von da ab werden nur noch die Verknüpfungen der Seiten beachtet. Beim ersten Durchlauf selektiert das Suchprogramm die Seiten, die die meisten Verweise von anderen Seiten erhalten und weist ihnen ein bestimmtes "Gewicht" zu. Auf der Grundlage dieses Wertes kann beurteilt werden, ob sie sehr wahrscheinlich zu den Autoritäten zu zählen sind. Gleichzeitig werden die Seiten notiert, die viele Links auf andere Seiten enthalten, und ihnen mehr Gewicht als Verteiler zugeordnet.
Diese Berechnung wird mehrere Male wiederholt. Jedes Mal weist das Programm Seiten mit Links zu Sites mit einer hohen Bewertung als Verteiler ein größeres Gewicht an Autorität zu. Gleichzeitig wird für die Seiten, die auf Sites mit hohen Autoritätswerten verweisen, das Verteiler-Gewicht heraufgesetzt. Nach Kleinbergs Meinung reichen zehn Wiederholungen aus, um überraschend genaue Listen von Autoritäten und Verteilern zu erstellen.
Durch die neue Methode werden auch Seiten selektiert, die bei einer reinen Textsuche nicht gefunden würden. Zum Beispiel befand sich bei einer Textsuche nach "Gates" die Microsoft-Homepage nicht in der Ergebnisliste, weil der Microsoft-Vorstandsvorsitzende Bill Gates auf der Eröffnungsseite nicht erwähnt wurde. Bei Kleinbergs System zählt sie aufgrund der auf sie zeigenden Links dazu.
Ein weiteres Problem heutiger Suchmaschinen ist die Vieldeutigkeit von Begriffen. Eine Suche nach "Jaguar" produziert ein Wirrwarr von Seiten über Autos, Tiere, das Football-Team der Jacksonville Jaguars und den veralteten, aber immer noch viel diskutierten Computer Atari Jaguar. Kleinbergs Methode geht hier einen neuen Weg: Steht ein Wort für mehr als ein Thema, dann werden die Sites automatisch in communities – "Gemeinschaften" – von Autoritäten und Verteilern geordnet, wobei jede Gemeinschaft eines der möglichen Themen repräsentiert. So produziert eine HITS-Suche nach "Jaguar" zuerst eine Liste mit einer Gemeinschaft von Sites zum Thema Jaguar-Computer, weil die Anzahl der Web-Sites zu diesem Thema vorherrschen. Danach werden communities zum Thema Football-Team und Auto aufgeführt. Schließlich finden sich noch vereinzelte Informationen über das Tier Jaguar.
Gemeinschaften werden auch gebildet wenn ein Thema kontrovers dargestellt wird: Eine Suche nach "Abtreibung" produziert separate Gemeinschaften von Sites, auf denen Einstellungen pro oder contra vertreten werden. Sites in denen dieselbe Meinung vorherrscht, sind dichter miteinander verknüpft als mit anderen Sites, mit gegenteiligen Meinungen.
Aber einen Nachteil der neuen Methode sieht auch Kleinberg noch. Auf schon von vornherein genau eingegrenzte Anfragen reagiert es häufig mit Ergebnismengen, die thematisch viel zu umfassend sind. Zum Beispiel erzeugt eine Suche nach "Netscape 4.04" eine allgemeine Liste über Sites mit Informationen zu Web-Browsern.
Der Heidelberger Verlag Spektrum der Wissenschaft ist Betreiber dieses Portals. Seine Online- und Print-Magazine, darunter »Spektrum der Wissenschaft«, »Gehirn&Geist« und »Spektrum – Die Woche«, berichten über aktuelle Erkenntnisse aus der Forschung.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.