Direkt zum Inhalt

ChatGPT & Co: KI-Systeme sollen wissenschaftliche Suchmaschinen unterstützen

Wissenschaftliche Fachverlage wie Elsevier und Springer Nature beginnen, ihre Artikel- und Bucharchive mit KI-Suchfunktionen auszustatten. Die Projekte befinden sich allerdings noch in der Erprobung.
Lupe mit Buchstaben
KI-Chatsysteme wie ChatGPT werden mit wissenschaftlichen Datenbanken verknüpft, um Suchvorgänge zu vertiefen.

KI-gesteuerte Chatbots, die in Internet-Suchmaschinen wie Bard von Google und Bing von Microsoft bereits Einzug gehalten haben, dürften zunehmend auch die wissenschaftliche Textsuche verändern. Am 1. August 2023 veröffentlichte der niederländische Verlagsriese Elsevier eine ChatGPT-gestützte KI-Schnittstelle namens »Scopus AI« für einige Nutzer seiner Scopus-Datenbank, während das britische Unternehmen Digital Science ankündigte, einem ausgewählten Kreis an Testnutzern einen KI-Assistenten mit großem Sprachmodell (Large Language Model, kurz LLM) für seine Dimensions-Datenbank zur Verfügung zu stellen. Das US-Unternehmen Clarivate arbeitet nach eigenen Angaben ebenfalls daran, LLMs in seine Datenbank Web of Science zu integrieren.

Große Sprachmodelle für wissenschaftliche Suchzwecke sind nicht neu: Start-ups wie Elicit, Scite und Consensus stellen solche KI-Systeme bereit. Sie sollen dabei helfen, die Forschungserkenntnisse eines Fachgebiets zusammenzufassen oder herausragende wissenschaftliche Untersuchungen zu identifizieren. Dabei stützen sich die KI-Systeme auf frei zugängliche wissenschaftliche Datenbanken oder (im Falle von Scite) auf den Zugang zu kostenpflichtigen Forschungsartikeln durch Partnerschaften mit Verlagen. Aber auch Unternehmen, die über große firmeneigene Datenbanken mit wissenschaftlichen Zusammenfassungen und Referenzen verfügen, schließen sich dem Trend hin zur KI an.

Laut Maxim Khan, einem leitenden Angestellten von Elsevier in London, soll der Chatbot Scopus AI, der jetzt als Pilotprojekt gestartet wurde, ein leichtes, spielerisches Werkzeug sein und Forschern helfen, schnell Zusammenfassungen von Forschungsthemen zu erhalten. Das KI-System beantwortet Fragen in natürlicher Sprache und verwendet dabei eine Version des großen Sprachmodells GPT 3.5 des ChatGPT-Herausgebers OpenAI. Als Ergebnis liefert es eine flüssig lesbare Zusammenfassung über das gewünschte Forschungsthema, samt zitierten Originalquellen und weiterführenden Forschungsfragen.

Große Sprachmodelle neigen zum Flunkern

Die Funktionsweise großer Sprachmodelle stellt für ihren Einsatz in Suchmaschinen – insbesondere bei wissenschaftlichen Fragestellungen – ein Problem dar. LLMs verstehen den Text, den sie produzieren, nicht; sie ergänzen nach statistischer Methode jeweils das nächste Wort, das im jeweiligen Kontext am plausibelsten ist sowie stilistisch passend. Ihre Ergebnisse können sachliche Fehler und Voreingenommenheiten (»Biases«) enthalten und sie können fiktive Referenzen erfinden, wie Fachleuten rasch auffiel.

Scopus AI ist daher eingeschränkt: Das System ist darauf angewiesen, sich beim Erstellen von Antworten ausschließlich auf Forschungszusammenfassungen der letzten fünf bis zehn Jahre zu beziehen. Die KI findet diese Zusammenfassungen jedoch nicht selbst. Eine herkömmliche Suchmaschine liefere als relevant erkannte Suchergebnisse, nachdem Menschen eine Anfrage eingegeben haben, erklärt Khan.

Laut Aaron Tay greifen zahlreiche andere KI-Suchmaschinensysteme auf ein ähnliches Verfahren zurück. Tay ist Bibliothekar an der Singapore Management University und beschäftigt sich mit KI-Suchwerkzeugen. Das Vorgehen des KI-Systems wird manchmal als »retrieval-augmented Generation« bezeichnet: Die KI-generierten Ergebnisse werden durch den Abruf (»retrieval«) weiterer Informationen angereichert (»augmented«). Das Sprachmodell beschränkt sich darauf, relevante Informationen zusammenzufassen, die eine andere Suchmaschine zusammengestellt hat.

Die Unberechenbarkeit einhegen

»Das große Sprachmodell kann weiterhin gelegentlich halluzinieren oder Dinge erfinden«, sagt Tay und verweist auf Forschungen zu KI-Chatbots für die Internetsuche, wie etwa Bing von Microsoft und Perplexity AI, die eine ähnliche Technik verwenden.

Elsevier hat sein KI-Produkt darauf beschränkt, nur nach Artikeln zu suchen, die seit 2018 veröffentlicht wurden, um neuere Arbeiten zu erfassen, und hat sein KI-System angewiesen, die zurückgegebenen Zusammenfassungen in der Antwort angemessen zu zitieren, unsichere oder böswillige Anfragen zu vermeiden und anzugeben, wenn die gefundenen Zusammenfassungen keine relevanten Informationen enthalten. Das schließt Fehler zwar nicht aus, aber minimiert sie. Elsevier hat auch die Unberechenbarkeit seiner KI verringert, indem es eine als Temperature bezeichnete Einstellung des KI-Systems niedrig angesetzt hat – die »Temperature« ist ein Maß dafür, inwieweit die Antwort von den plausibelsten Worten abweichen und kreativer ausfallen darf.

Könnten die Nutzer die mit KI erstellten Textpassagen einfach kopieren, in ihre Arbeiten einfügen und als eigenes Werk ausgeben? Laut Khan könnte das vorkommen. Elsevier ist diesem Problem bisher mit einer Anleitung entgegengetreten, die Forscher und Forscherinnen zu verantwortungsbewusstem Umgang mit den Zusammenfassungen auffordert. Khan weist darauf hin, dass Geldgeber und Verlage ähnliche Leitlinien herausgegeben haben, in denen sie eine transparente Offenlegung fordern, wenn große Sprachmodelle etwa beim Schreiben von Forschungsartikeln oder bei der Durchführung unabhängiger Begutachtungen (Peer Reviews) verwendet werden. In einigen Fällen legen die Leitlinien fest, dass generative KI überhaupt nicht verwendet werden darf.

Derzeit wird das Tool exklusiv für rund 15 000 Nutzerinnen und Nutzer aus dem Kreis der Scopus-Abonnenten eingeführt. Forscherinnen und Forscher jenseits des Abonnentenkreises können sich bei Elsevier um einen Testzugang bewerben. Das Unternehmen geht davon aus, dass das KI-unterstützte Suchsystem Anfang 2024 vollständig eingeführt wird.

Ähnlich wie bei Scopus AI sucht auch der KI-Assistent von Digital Science nach Eingabe einer Frage zunächst nach relevanten Artikeln und ein GPT-Modell von OpenAI erstellt dann einen zusammenfassenden Absatz über die am besten bewerteten Abstracts

Ebenfalls am 1. August 2023 kündigte Digital Science die Einführung eines KI-Assistenten für seine große wissenschaftliche Datenbank Dimensions an, der derzeit nur ausgewählten Betatestern zur Verfügung steht. Ähnlich wie bei Scopus AI sucht die Suchmaschine nach Eingabe einer Frage zunächst nach relevanten Artikeln und ein GPT-Modell von OpenAI erstellt dann einen zusammenfassenden Absatz über die am besten bewerteten Abstracts. »Witzigerweise ist unser Ansatz bemerkenswert ähnlich«, sagt Christian Herzog, der Chief Product Officer von Digital Science.

Dimensions nutzt das LLM auch, um weitere Details über relevante Arbeiten zu bieten, einschließlich kurzer, umformulierter Zusammenfassungen der Ergebnisse. Herzog zufolge hofft das Unternehmen, sein Tool bis Ende des Jahres 2023 auf breiterer Basis freizugeben. Derzeit arbeite Digital Science mit Wissenschaftlern, Geldgebern und Nutzern der Dimensions-Datenbank zusammen, um zu testen, in welchen Einsatzszenarien große Sprachmodelle nützlich sein könnten – bei offenem Ausgang. »Es geht darum, sich allmählich an eine neue Technologie heranzutasten und Vertrauen aufzubauen«, führt er aus.

Volltextverarbeitung ist in der Mache

Bibliothekar Aaron Tay gibt an, dass er sich auf Tools freue, die auch Volltext von Forschungsartikeln und nicht nur deren Zusammenfassungen mit großen Sprachmodellen verarbeiten. Websites wie Elicit ermöglichen es bereits, LLMs zu verwenden, um detaillierte Fragen zum Volltext einer Arbeit zu beantworten – sofern die KI-Systeme wie bei einigen Open-Access-Artikeln vollen Textzugriff haben.

Bar Veinstein, der beim Anbieter Clarivate verantwortlich ist für den akademischen und behördlichen Geschäftsbereich, sagt, dass das Unternehmen daran arbeite, eine KI-gestützte Suche in die firmeneigene Plattform Web of Science einzufügen. Er bezieht sich dabei auf eine strategische Partnerschaft mit AI21 Labs aus Tel Aviv, die die beiden Unternehmen im Juni 2023 bekannt gegeben haben. Ein Zeitplan für die Veröffentlichung des KI-basierten »Web of Science«-Tools steht Veinstein zufolge noch nicht fest.

Hinweis der Redaktion: Digital Science gehört zur Holtzbrinck Publishing Group. Die Gruppe ist Mehrheitsaktionär der Verlagsgruppe Springer Nature, zu der »Nature« und »Spektrum der Wissenschaft« gehören.

Schreiben Sie uns!

Beitrag schreiben

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Partnerinhalte

Bitte erlauben Sie Javascript, um die volle Funktionalität von Spektrum.de zu erhalten.