News: Keine Angst vor der Ähnlichkeit
Informatiker versuchen derartige Probleme mit Datenbanken und intelligenten Verzeichnissen für die darin enthaltenen Daten – sogenannte Indexe – zu lösen. Allerdings mit bislang mäßigem Erfolg, denn Datenbanken suchen lediglich nach einem einzigen Merkmal effizient und nur relativ schwerfällig nach einem Kriterien-Mix. Außerdem ist "Ähnlichkeit" einer der ungeliebtesten Begriffe im Datenbankbereich: "Hier soll alles möglichst exakt festgelegt und dauerhaft präzise sein", so Benn. Der Leiter der Forschungsgruppe für Datenverwaltungssysteme der Technischen Universität Chemnitz und sein Team haben jedoch vor dem Begriff Ähnlichkeit keine Angst. "Uns ist es gelungen, einen Datenbankindex zu erzeugen, der die inhaltliche Ähnlichkeit von Daten berücksichtigt und dazu beliebig viele Merkmale auswertet: den sogenannten Intelligenten Cluster Index ICIx. Vergleiche von Merkmalen, die heute nur komplizierte Anwendungsprogramme lösen, erledigt die Datenbank selbst und bietet von sich aus Gruppen mit ähnlichen Eigenschaften an", erklärt Benn. Erstmals präsentieren die Chemnitzer Informatiker ihre Entwicklung vom 24. Februar bis 1. März 2000 auf der CeBIT in Hannover (Halle 16, Stand B23).
Der von den Forschern gewählte Ansatz orientiert sich an der Künstlichen Intelligenz (KI). Durch die Weiterentwicklung von KI-Mechanismen und ihre Anpassung an die Anforderungen aus dem Datenbankbereich entstand ein Verfahren, das zunächst eine hierarchische Ordnung der gespeicherten Datenobjekte erzeugt. Es entsteht das, was die Biologen eine Taxonomie nennen – also eine Einordnung in systematische Kategorien. Danach werden datenbanktypische Indexstrukturen aufgebaut, die den Kriterien-Mix auf ein einziges Merkmal verdichten. Der eigentliche Datenzugriff ist damit hoch optimiert und schnell. Im Vergleich zu Standardverfahren mit sogenannten Sekundärindexen bei kommerziell eingesetzten Systemen (Oracle-Testdatenbank mit etwa 20 000 Einträgen; gleichzeitige Auswertung von 100 Merkmalen) war der Chemnitzer Prototyp 16-mal so schnell, und auch gegenüber etablierten mehrdimensionalen Indexverfahren hatte der Prototyp deutlich die Nase vorn. Das Verfahren kann prinzipiell für alle Arten von Datenbanken verwendet werden.
Und weil der Einsatzbereich des entwickelten Indexes traditionelle Problembereiche ebenso umfasst, wie technologische Frontbereiche – etwa Data Warehouse, Data Mining oder objektorientierte Datenbanken – steht das Verfahren unmittelbar vor dem industriellen Einsatz. So könnte es sein, dass in naher Zukunft die Mitarbeiter im Reisebüro die Wünsche ihres Kunden in eine einzige Datenbankanfrage eintragen und diesem aus der Fülle des Angebots ein oder mehrere genau passende Reisevorschläge präsentieren – wenn der dann nicht doch lieber ohne die Nachbarn an die See fahren will ...
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.