Sprachmodell »Evo«: KI entschlüsselt und entwirft genetischen Code
Obwohl sie lediglich aus vier unterschiedlichen Grundbausteinen besteht, enthält die DNA alle Erbinformationen eines Organismus. Ein Forscherteam der Stanford University und des Arc Institute in Palo Alto hat nun im Fachmagazin Science eine KI-Anwendung vorgestellt, die ganze Genomsequenzen analysieren und nach bestimmten Vorgaben erstellen kann.
Das Sprachmodell namens »Evo« hatte die strukturellen Prinzipien der DNA anhand eines Datensatzes von 2,7 Millionen Genomen gelernt. Diese stammten allesamt von Bakterien und Phagen, also Viren, die Bakterien infizieren. Die Fachleute hatten dabei bewusst die Daten solcher Viren ausgeschlossen, die Menschen, Tiere und Pflanzen befallen können, um einem Missbrauch des Programms vorzubeugen.
Evo ist ein so genanntes Foundation-Modell. Es ist daher nicht auf eine bestimmte Aufgabe festgelegt, sondern kann an diverse Problemstellungen angepasst werden. »Im Gegensatz zu anderen Modellen konzentriert sich Evo nicht nur auf die Codon-Struktur der DNA – also die Abfolge von drei Nukleotiden, die für eine Aminosäure codieren –, sondern auch auf größere Bereiche, so dass es Strukturen finden kann, die man bisher noch nicht kennt«, erklärt Benedikt Brors vom Deutschen Krebsforschungszentrum in Heidelberg gegenüber dem Science Media Center. Wie gut das gelingt, demonstrierten die Studienautoren an mehreren Beispielen. So konnte Evo etwa vorhersagen, wie sich einzelne Mutationen auf verschiedene Ebenen der Zellregulation auswirken. Das schaffte es mindestens genauso treffsicher wie eigens darauf spezialisierte Modelle, in einigen Fällen sogar noch besser.
Sprachmodell mit vielen Anwendungsmöglichkeiten
Zudem sollte das Programm DNA-Sequenzen entwerfen, die für bestimmte Proteine codieren. Eine Aufgabe lautete, den Code für die Genschere CRISPR-Cas zu erstellen, was tatsächlich gelang: Nach dieser Bauanleitung entstand daraufhin im Labor ein funktionstüchtiger Molekülkomplex. Vollständige, lebensechte Genome konnte Evo bislang allerdings nicht designen; allgemein schlichen sich bei langen Sequenzen einige Fehler ein – ein Problem, das bei Sprachmodellen generell bekannt ist.
Dennoch sind Experten optimistisch, dass das Tool die Biotechnologie einen großen Schritt voranbringen kann. »Durch Evo eröffnen sich etliche neue Anwendungsmöglichkeiten«, sagt Brors. Zum Beispiel könne man damit Mutationen finden, die für Antibiotikaresistenzen verantwortlich sind, und untersuchen, welche Rolle nicht codierende Sequenzen spielen. »Im menschlichen Genom gibt es sehr viele nicht codierende RNAs, und bisher weiß man bei den meisten nicht, was sie tun.«
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.