Künstliche Intelligenz: TL;DR – diese KI fasst Forschungsarbeiten in einem Satz zusammen
TLDR oder TL;DR ist ein gebräuchliches Internet-Akronym für »too long; didn't read«. Und nun auch der Name einer von künstlicher Intelligenz gestützten Software, die Ein-Satz-Zusammenfassungen von Forschungsarbeiten generiert. Das Ergebnis speist sich aus Informationen in der Zusammenfassung, der Einleitung und der Schlussfolgerung eines Papers.
Das kostenlose Tool ist seit dieser Woche auf der Suchmaschine Semantic Scholar aktiv, die auf akademische Veröffentlichungen spezialisiert ist. Beide Projekte haben Mitarbeiter und Mitarbeiterinnen des gemeinnützigen Allen Institute for Artificial Intelligence (AI2) entwickelt. Bislang erzeugt die Software nur Sätze für zehn Millionen Arbeiten aus dem Bereich Computerwissenschaften, die Semantic Scholar abdeckt. Für Veröffentlichungen in anderen Disziplinen solle es ab dem nächsten Monat Zusammenfassungen geben, sagt Dan Weld, der die Semantic Scholar-Gruppe am AI2 leitet.
Vorläufige Tests deuten darauf hin, dass das Tool Leserinnen und Lesern hilft, Suchergebnisse schneller zu sortieren, sagt er. »Die Leute scheinen es wirklich zu mögen.«
Das Autorenteam hat das Tool bereits im April 2020 in einem Vorabdruck auf dem Preprint-Server arXiv beschrieben. Auf einer Konferenz, die im November stattgefunden hat, wurde die Studie dann begutachtet und mittlerweile zur Veröffentlichung angenommen. Die Forscher haben ihren Code frei zugänglich gemacht, zudem gibt es eine Demo-Website, auf der Interessierte das Tool ausprobieren können.
Nicht perfekt, aber ein guter Start
»Diese Art von Tool wird in naher Zukunft zu einer Standardfunktion der wissenschaftlichen Suche werden. Angesichts des Bedarfs bin ich eigentlich erstaunt, dass es so lange gedauert hat, bis es in die Praxis umgesetzt wurde«, sagt Jevin West, ein Informationswissenschaftler an der University of Washington in Seattle, der das Tool auf Wunsch von »Nature« getestet hat. »Es ist nicht perfekt, aber definitiv ein Schritt in die richtige Richtung.«
Bissige Sätze auf Twitter zu verschiedenen Publikationen hatten Weld dazu inspiriert, das TLDR-Programm zu entwickeln. Wie andere Software zur Sprachgenerierung verwendet das Tool neuronale Netze, die auf große Textmengen trainiert wurden. Das Team hat mit Zehntausenden von Forschungsarbeiten gearbeitet, so dass das Netzwerk lernen konnte, prägnante Sätze zu generieren. Die Forscher verfeinerten die Software anschließend, um den Inhalt zusammenzufassen. Dafür nutzten sie einen neuen Datensatz von ein paar tausend computerwissenschaftlichen Arbeiten mit passenden Zusammenfassungen. Zudem hat das Team fachfremde Beispiele gesammelt, um die Leistung der Software in 16 weiteren Bereichen zu verbessern. Besonders beachtet: die Biomedizin.
Neben TLDR-Software gibt es weitere Werkzeuge: Seit 2018 bietet beispielsweise die Website »Paper Digest« Zusammenfassungen von Arbeiten an. Sie scheine jedoch Schlüsselsätze aus dem Text zu extrahieren, anstatt neue zu generieren wie TLDR, sagt Weld. Sein Programm richtet sich bislang vor allem an Experten, die den Fachjargon eines Papers bereits verstehen. Laut Weld arbeitet das Team aber daran, Zusammenfassungen für interessierte Laien zu erstellen.
Die Forscher planen zudem, die Technologie an Verlage zu lizenzieren und ihren Service zu erweitern, um personalisierte Forschungs-Briefings anzubieten. »Wir kommen nun an den Punkt, an dem KI-Methoden Zusammenfassungen erstellen können, die für Menschen akzeptabel sind«, sagt Weld.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.