Designer-Proteine: KI schreibt den Code des Lebens um
Lange hat der Mensch sich in der Natur bedient und die Moleküle des Lebens für seine Zwecke genutzt. Bei der Herstellung von Bier über Insulin bis zum Waschmittel vollführen biologische Verfahren Kunststücke, die für menschliche Technik unerreichbar sind. Doch jetzt schicken sich Forschungsgruppen und Unternehmen an, weit über das hinauszugehen, was die Evolution in Milliarden Jahren geschaffen hat – und zwar mit künstlicher Intelligenz. Die nämlich soll nun eines der kompliziertesten Probleme der Biochemie lösen: künstliche Proteine mit jeder nur denkbaren Funktion zu entwerfen.
Die Idee, Proteine für bestimmte Aufgaben maßzuschneidern, ist nicht neu. Lange Zeit allerdings mussten sich Fachleute darauf beschränken, existierende Proteine mehr oder weniger gezielt zu verändern, um die gewünschte Funktion zu erhalten. Für eine dieser Techniken, die so genannte gerichtete Evolution, erhielt die Forscherin Frances Arnold im Jahr 2020 den Nobelpreis für Chemie. Doch je mehr man über die Eigenschaften von Proteinen lernt, desto mehr rückt der Wunsch in den Fokus, völlig neue Proteinstrukturen zu konstruieren.
Proteine sind die molekularen Maschinen, die das Leben am Laufen halten. Sie ermöglichen die superfeste Struktur von Spinnenseide, übertragen biologische Signale oder ermöglichen alle Arten von chemischen Reaktionen, die für lebende Organismen unverzichtbar sind. Es gibt unzählige verschiedene Proteine, deren Struktur jeweils perfekt auf ihre Funktion zugeschnitten ist. Oft bringen sie Reaktionen weit effektiver in Gang als ihre technischen Gegenstücke. Deswegen nutzen Medizin, Forschung und Industrie die vielseitigen Helfer inzwischen für immer mehr Prozesse.
Ihr Facettenreichtum verblüfft, bedenkt man, dass es sich um einfache Kettenmoleküle handelt, in denen unzählige Aminosäuren aneinandergereiht sind. Doch der lange Strang windet und verknäuelt sich, gesteuert von den Wechselwirkungen der Aminosäuren untereinander, zu einer komplizierten dreidimensionalen Form. Manche Teilstücke falten sich zu größeren Strukturelementen wie Helices oder Faltblättern zusammen – stabile Teile des Moleküls mit helixförmiger oder flacher Struktur. Andere Abschnitte der Kette lagern sich zu jenen Teilen des Proteins zusammen, die für seine Funktion entscheidend sind: Bindungsstellen für andere Moleküle oder Taschen, in denen chemische Reaktionen stattfinden.
Für jede Aufgabe das perfekte Molekül
Eine Abfolge von Aminosäuren zu finden, die sich zu genau der richtigen Form für die gewünschte Funktion zusammenlagert, ist ein unglaublich komplexes dreidimensionales Puzzle. Künstliche Intelligenz soll dabei helfen, es zu lösen. Das Ziel: Für jede denkbare Anwendung sollen die Algorithmen das richtige Molekül entwickeln. »Wir geben der KI zum Beispiel die gewünschte Funktion vor, die Temperatur sowie welche Lösungsmittel das Protein aushalten soll und sagen dann: Mach das«, erklärt Birte Höcker. Bislang ist das jedoch eher Wunsch als Realität. Die Biochemikerin von der Universität Bayreuth arbeitet seit Jahren daran, Proteine gezielt herzustellen – inzwischen auch mit KI. »Wie oft wünschen wir uns einen Antikörper, der etwas Bestimmtes spezifisch bindet! Wenn wir die Gensequenz am Computer generieren und diese dann einfach bestellen könnten, wäre das ein großer Gewinn.«
Bevor die KI-Verfahren auftauchten, mussten Proteindesigner dazu die chemischen und physikalischen Wechselwirkungen sehr genau kennen, weshalb sie bevorzugt mit gut verstandenen Strukturelementen arbeiteten. »Wir haben uns lange auf geordnete Strukturen wie Helices oder Faltblätter fokussiert, weil wir die recht gut herstellen und untersuchen können«, sagt Höcker. Damit fehlten den künstlichen Proteinen allerdings genau jene Teile, die für konkrete Funktionen notwendig sind und die man bei vielen natürlichen Proteinen sieht: Taschen oder Hohlräume, die andere Moleküle aufnehmen, oder bewegliche Bereiche, die an Wechselwirkungen beteiligt sein können.
Schon die ersten Experimente mit den nun entwickelten KI-Methoden deuten darauf hin, dass solche Verfahren weit darüber hinausgehen können. Das Team um Höcker veröffentlichte 2022 die mit den Aminosäureketten von rund 45 Millionen Proteinen programmierte KI »ProtGPT2«. Gibt man diesem so genannten Transformer ein paar Aminosäuren zum Start, dann konstruiert das System davon ausgehend völlig neue Proteine. »Die neu designten Proteine sind den natürlichen Vorbildern einerseits sehr ähnlich, andererseits auf ganz eigene Art anders«, sagt die Forscherin. »Und diese Proteine haben Taschen, Löcher und Schleifen, die auch Funktionen erfüllen können. Deswegen sehen wir da viel Potenzial.«
Was Sprachen mit Proteinen zu tun haben
ProtGPT ist ein Sprachmodell (Large Language Model, LLM), das ganz ähnlich wie ChatGPT funktioniert. ChatGPT etwa berechnet auf der Basis der vorangegangenen Wörter für jede Position im Satz, mit welcher Wahrscheinlichkeit ein bestimmtes Wort an nächster Stelle kommt. ProtGPT macht das in der Sprache der Proteine.
»Die Buchstaben in unserem Alphabet können wir vergleichen mit dem Buchstabencode für die Aminosäuren im Protein: Alanin ist A, Valin ist V, Phenylalanin ist F und so weiter«, erklärt Höcker. »So schreiben wir ein Protein als lange Kette von Buchstaben.« Diese Zeichenketten tragen daher Bedeutung – biologische Bedeutung. Ein Abschnitt, der zum Beispiel eine Helixstruktur codiert, entspricht einem Wort. Die richtige Abfolge solcher Aminosäure-Worte erzeugt ein Protein. Dessen Funktion folgt aus der Zusammensetzung des Proteins wie die Bedeutung eines Satzes aus den enthaltenen Wörtern.
Während die Bedeutung eines Satzes jedoch abstrakt ist, basiert die Funktion von Proteinen auf der Anordnung verschiedener chemischer Gruppen, die durch die Faltung an bestimmten Stellen des Proteins entstehen. Das können etwa Bindungstaschen sein, in denen kleine Moleküle andocken und dort chemische Reaktionen eingehen. Solche Strukturen neu gestalten zu können, ist das große Ziel des Proteindesigns, das mit KI in Reichweite scheint. »In einer Bindungstasche kommen Aminosäuren zusammen, die sonst weit auseinanderliegen«, sagt Höcker. Durch die Faltung des Proteins kommen Abschnitte in engen Kontakt, die in der langen Kette eigentlich weit voneinander entfernt sind. »Das ist ebenfalls vergleichbar mit der Sprache. Auch in einem Satz können sich weit auseinanderliegende Wörter aufeinander beziehen. Modelle wie ChatGPT nutzen solche Zusammenhänge, und das geht mit Proteinen ganz ähnlich.«
Inzwischen gibt es mehrere Sprachmodelle, die künstliche Proteine designen – auch schon für kommerzielle Anwendungen. Allerdings sind die LLMs nicht der einzige Weg, generative KI im Proteindesign einzusetzen. Die zweite bedeutende Strategie, Diffusion genannt, kommt aus der Bildbearbeitung. Vor einigen Monaten machte der Bildgenerator »Stable Diffusion« Schlagzeilen, der Bilder aus reinen Texteingaben generiert.
Proteine per Diffusion
Bei der Diffusion fügt das Programm einem ursprünglichen Datensatz Rauschen hinzu. Anschließend lässt es einen Algorithmus zur Rauschentfernung über die Daten laufen, der aber bevorzugt jenen Teil des Rauschens entfernt, der sich am stärksten von den Trainingsdaten unterscheidet. Nach vielen solcher Zyklen hat das Programm schließlich einen Datensatz erzeugt, der den Trainingsdaten ähnelt. Programme wie Stable Diffusion sind mit Sprachmodellen gekoppelt, um Bilder aus Texteingaben zu generieren. Beim Proteindesign wendet man solche Verfahren ohne diesen Umweg auf so genannte »contact maps« an, die die Wechselwirkungen innerhalb des Proteins beschreiben.
»Man braucht bestimmte Kontakte innerhalb der Aminosäurekette, um das Protein zu falten«, erklärt Höcker. Aminosäuren müssen somit an den richtigen Stellen zueinanderfinden, um das Protein durch chemische Wechselwirkungen zusammenzuhalten. Dieses Kontaktnetzwerk, das die dreidimensionale Struktur des Proteins vorgibt, kann mit KI-Methoden optimiert werden. Neue Strukturen werden sozusagen halluziniert. »Die Software fabuliert herum und guckt, was funktioniert – also wie sie besonders starke Verbindungen herstellen könnte. Wir und andere Arbeitsgruppen haben das schon am echten Protein experimentell geprüft, das funktioniert erstaunlich gut.«
»Viele aktuelle Untersuchungen haben noch gar nicht die nötigen experimentellen Daten, um die Leistung der KI-Verfahren wirklich gut zu beurteilen«Birte Höcker, Biochemikerin
Besonders geeignet sind solche Diffusionsalgorithmen für Proteine, deren Hauptfunktion darin besteht, andere Proteine zu binden. Zum Beispiel künstliche, antikörperähnliche Moleküle, die an die Rezeptoren von Viren andocken und diese so blockieren. Ein Team um David Baker von der University of Washington nutzt Diffusion, um Bindungsmoleküle für Influenza und Sars-CoV-2 zu erzeugen, die die Viren daran hindern, in die Zelle einzudringen. Letztere sollen noch 2023 in klinischen Studien getestet werden.
Auch viele andere aussichtsreiche KI-Experimente haben diesen Erstkontakt mit der Wirklichkeit noch vor sich. An solchen Praxistests mangelt es bisher oft. »Viele aktuelle Untersuchungen haben noch gar nicht die nötigen experimentellen Daten, um die Leistung der KI-Verfahren wirklich gut zu beurteilen«, sagt Höcker. Denn ein Protein im Computer zu entwerfen ist eine Sache – ob das Ergebnis dann auch in einer echten Umgebung das tut, was es soll, ist eine ganz andere Frage.
Die Suche nach den richtigen Trainingsdaten
Denn anders als bei einer Chat-KI, die absurde Sätze bildet, oder einem Bildgenerator, der Hände mit zu vielen Fingern erzeugt, ist bei Proteinen nicht auf den ersten Blick sichtbar, ob der Algorithmus Unsinn produziert. Das zu prüfen, ist allerdings recht aufwändig. Dazu muss man die Gensequenz des Proteins in Bakterienzellen einschleusen, die daraufhin das Molekül herstellen. Dann wird das Protein aufgereinigt und gründlich auf seine Eigenschaften getestet.
Die neu designten Proteine möglichst detailliert zu untersuchen, ist auch aus einem weiteren Grund unverzichtbar: Die generativen KIs benötigen gigantische Datenmengen, die mit genau solchen Proteinanalysen gewonnen werden – je mehr, desto besser. Doch auch wenn es unzählige Datenbanken mit Proteinsequenzen und -strukturen gibt, ist bisher nicht klar, ob die vorhandenen Informationen wirklich gut geeignet sind, um die Systeme zu trainieren – und wie gegebenenfalls die idealen Trainingsdaten aussehen.
Dass in diesen eine erhebliche Lücke klafft, zeigte sich schon bei AlphaFold – jenem Algorithmus, der vor einigen Jahren die Vorhersage von realen Proteinstrukturen revolutionierte. Das Programm berechnet für eine gegebene Aminosäurekette, wie diese sich dreidimensional faltet. 2020 bewies das vom Unternehmen DeepMind programmierte AlphaFold 2, dass es Hunderte von Proteinstrukturen weit präziser vorhersagen kann, als es mit jedem anderen Verfahren möglich ist. DeepMind nutzte mehr als 170 000 Strukturen aus öffentlichen Datenbanken, um die KI zu trainieren. Fachleute bezeichneten das Resultat als »bahnbrechend«. Allerdings zeigten sich dabei auch die Grenzen der KI: Bei rund einem Drittel der getesteten Proteinstrukturen waren die Resultate unbefriedigend.
Die Software hat mit ebenjenen Teilen der Proteine Schwierigkeiten, die für deren Funktion entscheidend sind. Um zielgenau zu funktionieren, müssen in der entsprechenden Region des Proteins einzelne Aminosäuren präzise ausgerichtet sein. Dadurch bringen sie beispielsweise kleine Moleküle in genau die richtigen Positionen, lassen sie dort miteinander reagieren und setzen die Produkte anschließend frei. Dabei binden spezielle Bereiche im Protein die Reaktionspartner so exakt, dass eine gewünschte Reaktion abläuft, idealerweise nur mit einem ganz bestimmten Molekül. Derzeit verfügbare KIs sind allerdings noch damit überfordert, diese Vorgänge abzubilden. »AlphaFold hat in den Bindungstaschen nicht immer die nötige Präzision«, sagt Höcker. Eine Schwierigkeit sei etwa, die oft subtilen, aber manchmal entscheidenden Veränderungen durch einzelne Mutationen in der Nähe der Bindungstasche zu erfassen.
»Die Frage ist, ob wir genug Daten haben, um die Bindung kleiner Moleküle vorhersagen zu können«, erklärt die Forscherin. Nicht zuletzt sei bei den in Datenbanken vorhandenen Strukturen von Bindungstaschen und den dort gebundenen Molekülen weniger klar, ob sie die realen Verhältnisse korrekt wiedergeben, als es bei den großen Proteinstrukturen wie Helices und Faltblättern der Fall ist.
KI wird die klassischen Verfahren nicht verdrängen
Fachleute diskutieren derzeit zwei grundsätzliche Strategien, mit solchen Schwierigkeiten umzugehen. Eine Möglichkeit ist, mit Hilfe physikalischer Modelle, neu generierter Enzyme und genauer Strukturanalyse die Wissenslücken zu füllen. Die KI-Methoden eröffnen jedoch noch eine andere Option: Man trainiert die selbstlernenden Systeme so lange und mit so vielen Daten, bis sie die unbekannten Faktoren implizit berücksichtigen – ohne dass man diese im Detail kennen und verstehen würde.
Das würde das Proteindesign zu einer »Black Box« machen, die zwar neue Proteine erzeugen kann, jedoch nichts darüber sagt, warum diese funktionieren und welche Prinzipien dahinterstehen. Für Birte Höcker ist das keine wünschenswerte Vorstellung. »Ich mache Proteindesign, weil ich die beteiligten Vorgänge besser verstehen möchte«, erklärt sie. »Aber es ist nicht klar, ob ich das überhaupt noch verstehe, wenn eine KI das macht.«
Doch wahrscheinlich wird es nicht so weit kommen – denn schon jetzt beginnen Forscherinnen und Forscher, die verschiedenen Techniken zu kombinieren. Zum Beispiel, wenn es darum geht, Enzyme für völlig neue, in der Natur nicht vorkommende Reaktionen zu generieren. Für eine KI ist das womöglich schwierig: »Die KI kann nur von Dingen lernen, die da sind. Wenn man keine natürlichen Enzyme für eine Reaktion kennt, wird es schwer, eine KI darauf zu trainieren«, sagt Höcker. Klassische, nicht KI-basierte Verfahren wie rationales Proteindesign oder gerichtete Evolution dagegen haben schon gezeigt, dass sie etwas vollkommen Neues schaffen können. Die unterschiedlichen Ansätze könnten sich eher gegenseitig ergänzen, als dass die KI ältere Verfahren verdrängt.
Der große Vorteil der KI-Verfahren ist jedoch, dass sie es ermöglichen, eine immense Vielfalt potenziell interessanter Proteinsequenzen zu untersuchen. Denn nur ein winziger Bruchteil aller möglichen Proteine kommt in Lebewesen tatsächlich vor. »Vielleicht schaffen diese Techniken den Sprung in ganz neue Bereiche, die die Natur noch nicht getestet hat«, sagt Höcker. So lassen sich möglicherweise exotische Strukturen und Eigenschaften aufspüren, auf die das Leben in vier Milliarden Jahren Evolution nicht gekommen ist.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.