Nobelpreis für Chemie 2024: Wie Computer die Moleküle des Lebens entschlüsselten
Keine vom Menschen konstruierte Technik kann mit den von der Evolution geschaffenen Maschinen der Zelle mithalten. Proteine lassen alle Reaktionen des Lebens ablaufen, sie versorgen den Körper mit Energie, sind Signalstoffe und chemische Waffen der Zellen. Die von ihnen erzeugten Kräfte treiben ein Bakterium ebenso vorwärts wie einen Blauwal. Ebenso unermesslich wie ihre Bedeutung für die Biologie ist ihre Vielfalt – und ihre möglichen technischen Anwendungen. Doch lange Zeit hinderte eine schier unüberwindlich erscheinende Hürde die Menschheit daran, das Potenzial der molekularen Maschinen für Wissenschaft und Technik voll auszuschöpfen.
Das Problem, das die drei Chemie-Nobelpreisträger des Jahres 2024 gelöst haben, ist die schwierige Beziehung zwischen dem Aufbau eines Proteins und seiner Funktion. Die hochkomplexen und vielfältigen Proteinmaschinen bestehen aus einem äußerst überschaubaren Set an Bausteinen: 20 kleine Moleküle, die Aminosäuren, bilden die Grundlage für Millionen unterschiedlicher Proteine. Die Aminosäuren haben unterschiedliche Eigenschaften, tragen zum Beispiel positive oder negative Ladungen oder sind Wasser abweisend. Diese Bausteine reiht eine zelluläre Fabrik aneinander, Molekül für Molekül streng nach dem in der DNA codierten Bauplan, bis sie eine Kette von hunderten oder gar tausenden Aminosäuren bilden.
Ein Protein ist also ein einzelner langer Strang, codiert in der DNA. Der Haken an der Sache: Ein Protein ist auch ein dreidimensionales Gebilde. Und diese räumliche Gestalt eines Proteins bestimmt darüber, welche Funktion es erfüllt. Ob es im Wasser gelöst ist oder das ölige Innere einer Membran bevorzugt oder ob es an seiner Oberfläche eine kleine Tasche hat, in der Reaktionen ablaufen können. Welche Struktur ein Protein annimmt, wird einzig durch die Abfolge der Aminosäuren in der langen Kette festgelegt.
Das große Rätsel um die dritte Dimension der Proteine
Kennt man diese, sollte es also möglich sein, auf die räumliche Struktur des Proteins zu schließen. Und umgekehrt sollte man in der Lage sein, ein Protein mit einer gewünschten Form zu entwerfen – und dann die korrekte Aminosäuresequenz dazu zu finden. Doch was in der Theorie einleuchtet, war bis vor wenigen Jahren praktisch unmöglich. Die drei diesjährigen Nobelpreisträger haben diese beiden Aufgaben schließlich bewältigt – mit Hilfe von Computersimulationen und künstlicher Intelligenz.
Gelöst wurde zuerst das zweite Problem: wie man zu einem Protein mit gewünschter Form und Funktion die passende Abfolge von Aminosäuren findet. Das Grundproblem dabei ist, dass die dreidimensionale Form, die so genannte Tertiärstruktur, durch einen sehr komplexen Prozess entsteht. Bereits während die Aminosäurekette Baustein für Baustein entsteht, beginnt sich ihr freies Ende durch die Wechselwirkungen der Aminosäurereste, das heißt die sich abzweigenden Seitenketten der Moleküle, zu verformen und zu verknäulen. Positiv geladene Molekülteile binden an negative Reste, Wasser abweisende Fragmente beginnen sich zu verklumpen, nach und nach bildet sich die räumliche Struktur. Hilfsmoleküle stellen sicher, dass dieser Prozess korrekt abläuft.
Die dabei stattfindenden Vorgänge sind bis heute nur zum Teil verstanden. Deswegen war lange Zeit aus der Form und Funktion eines Proteins keineswegs erkennbar, welche Aminosäuresequenz – und damit welcher DNA-Code – hinter dem Molekül steckt.
Erst in den 1980er Jahren verbesserte sich das Bild. Zu jener Zeit gelang es Fachleuten immer öfter, Kristalle aus natürlichen Proteinen herzustellen und deren genauen Aufbau mit Hilfe fortschrittlicher Röntgenstrukturanalyse zu entschlüsseln. Dank der Proteinstrukturen kamen nach und nach physikalisch-chemische Grundprinzipien ans Licht. So sammeln sich Wasser abweisende Teile des Moleküls im Inneren, während Wasser liebende chemische Strukturen nach außen zeigen. Spezielle Verknüpfungen wiederum, die so genannten Wasserstoffbrückenbindungen, halten die räumliche Struktur der Proteine in Form.
Die Anfänge des Proteindesigns
Im Jahr 1988 kombinierten Fachleute diese Prinzipien mit dem Wissen um Aminosäureabfolgen, die einfache flache oder stabförmige Proteinteile erzeugen, um erstmals ein gezielt designtes Protein zu erzeugen. Das bestand aus vier der stabförmigen so genannten α-Helices und konnte nicht allzu viel: Es sah ungefähr aus wie geplant. Aber schon das war angesichts der Schwierigkeiten ein echter Erfolg. Andere Arbeitsgruppen knüpften daran an, und bald gab es ganze Bibliotheken mit ähnlichen Design-Proteinen aus vier Stäben, von denen die meisten ebenfalls etwa aussahen wie geplant.
Es wurde aber schnell klar, dass man nur auf Basis chemisch-physikalischer Prinzipien nie Proteine erzeugen würde, die mehr konnten als zu existieren. Nötig waren leistungsfähige Verfahren für komplexer aufgebaute Strukturen, insbesondere um für Bindungen und Wechselwirkungen entscheidende Molekülteile atomgenau zu entwerfen. In den 1990er Jahren waren Computer die Zukunft des Proteindesigns.
Zwischen dem 7. und dem 14. Oktober geben die Nobelkomitees die Preisträger des Jahres 2024 bekannt. Auf unserer Themenseite »Nobelpreise – die höchste Auszeichnung« erfahren Sie, wer einen der renommierten Preise erhalten hat. Dort können Sie außerdem das Wesentliche über die Laureaten und ihre Forschung nachlesen.
Im Jahr 1997 zeigte sich erstmals, dass digitale Verfahren tatsächlich dabei helfen konnten, Proteinstrukturen nicht nur mit der richtigen Form, sondern mit einer Art von Funktion zu erzeugen. Zwei Forscher, Bassil Dahiyat und Stephen Mayo, bildeten einen entscheidenden Teil eines DNA bindenden Proteins nach, das so genannte Zink-Finger-Motiv. Das wird normalerweise durch das namensgebende Metall in Form gehalten. Die beiden Forscher suchten nun ein künstliches Protein mit der gleichen Form – ohne Zink.
Das Verfahren war extrem mühselig. Um das nötige Mini-Peptid zu berechnen, durchsuchten die Fachleute nicht bloß eine gigantische Zahl möglicher Sequenzen, sondern ermittelten auch noch die optimalen Drehwinkel der Molekülteile. Viele chemische Bindungen sind frei drehbar, so dass Molekülteile sonst wohin abstehen können, wenn man nicht aufpasst. Lohn der Arbeit war ein Proteinstückchen aus lediglich 28 Aminosäuren, das tatsächlich aussah wie ein Zink-Finger ohne Zink. Nur: Ein durchschnittliches Protein besteht aus einigen hundert Aminosäuren. Das Verfahren von Dahiyat and Mayo war dafür nicht leistungsfähig genug.
Das entscheidende Werkzeug: Rosetta
Der entscheidende Fortschritt kam 1999, als ein Team um den jetzt mit dem Nobelpreis geehrten David Baker ein Rosetta genanntes Computerprogramm schrieb. Dieses hatte zwei Funktionen. Zum einen sagte es die genaue Form kurzer Abfolgen von Aminosäuren voraus. Zum anderen konnte es solche Fragmente mit einer gewünschten Proteinstruktur vergleichen – und bestimmen, welche von vielen möglichen Varianten am besten passte. Dadurch konnten die Fachleute Proteine Stück für Stück zusammensetzen: Rosetta war ein Werkzeug, um Strukturen nicht nur vorherzusagen, sondern auch systematisch zu designen.
Theoretisch jedenfalls. Es dauerte noch vier Jahre, bis Baker das Prinzip mit einer Arbeitsgruppe tatsächlich in die Praxis umsetzte. Im Jahr 2003 schließlich präsentierte das Team ein künstliches Protein namens Top7, das aus 93 Aminosäuren bestand. Die Fachleute hatten bewusst eine Struktur gewählt, die keinem damals bekannten Protein ähnelte und eine recht komplizierte Struktur aus einer stabförmigen α-Helix und einem flachen β-Faltblatt aufwies. Schließlich hatten sie Rosetta die genaue Form des entstehenden Moleküls vorhersagen lassen – die fast präzise dem tatsächlich im Labor erschaffenen Molekül entsprach.
Auch Top7, das muss man dazu erwähnen, tat noch nicht viel mehr, als bloß zu existieren. Doch es war schon ein echtes Protein mit vielen Dutzend Aminosäuren und einer komplizierten, aber dennoch präzise vorhersehbaren Struktur. Mit Hilfe der Rosetta-Datenbank designten Fachleute später auch Proteine mit spezifischen Funktionen, wie Bindungen mit bestimmten Partnern einzugehen. Im Jahr 2008 schließlich berichteten Baker und sein Team von den ersten Versuchen, die Maschinen der Natur auf ihrem eigenen Spielfeld zu schlagen: Sie wollten ein Enzym erschaffen, das Reaktionen katalysiert, für die es in der Natur kein Vorbild gibt.
Das klappte so halb. Die designten Proteine ließen die gewünschte Reaktion ablaufen, allerdings bei Weitem nicht so schnell und effizient wie die natürlichen Vorbilder. Wirklich effektive künstliche Enzyme gelangen Fachleuten erst dank einer weiteren entscheidenden Entwicklung. Mit Hilfe der geleiteten Evolution, für die Frances Arnold 2018 den Nobelpreis für Chemie erhielt, entstanden schließlich tatsächlich die ersten leistungsfähigen künstlichen Enzyme. Es ist jedoch das Verdienst von David Baker und seinen Kolleginnen und Kollegen, die dafür entscheidende Frage beantwortet zu haben: Wie erzeugt man einen eindimensionalen Molekülstrang, der sich präzise zum gewünschten dreidimensionalen Objekt faltet?
Künstliche Intelligenz knackt das Rätsel der Proteinfaltung
Die umgekehrte Frage, welches dreidimensionale Objekt sich aus einem gegebenen Gen oder dem darin codierten Aminosäurestrang bildet, ließ sich seit Anfang der 1990er Jahre bereits auf die harte Tour beantworten. Klassisch ermittelt man die Struktur eines Proteins mittels Röntgenkristallografie, Kryoelektronenmikroskopie oder auch NMR-Spektroskopie. Das alles sind zuverlässige, aber höchst aufwändige und zeitintensive Methoden für die Vermessung der Makromoleküle. Beispielsweise muss man vor einer Röntgenstrukturanalyse das Protein erst einmal in kristalliner Form herstellen. Das ist eine Herausforderung für sich. Die Aufnahme und Auswertung der Beugungsmuster der Kristalle im Röntgenlicht sind wiederum schwierig und zeitaufwändig. Bis heute sind auf analytische Weise die Strukturen von zirka 200 000 Proteinen aufgeklärt worden.
Dass der Schlüssel für die Struktur eines Proteins allein in der Aminosäuresequenz liegt, fand der Chemiker Christian Afinsen Anfang der 1960er Jahre heraus. 1972 wurde er für diese Erkenntnis mit dem Nobelpreis für Chemie geehrt. Doch dieses Wissen stellte Forscherinnen und Forscher erneut vor eine Herausforderung: Wie der Molekularbiologie Cyrus Levinthal 1969 ermittelte, kann ein Protein, das bloß 100erneuteAminosäuren umfasst – damit wäre es sehr klein –, schon 1047 verschiedene räumliche Anordnungen einnehmen. Wie sollte es also möglich sein, darunter die richtige zu finden? Und wie kann es sein, dass in der Zelle innerhalb von Sekundenbruchteilen stets die korrekte Form zu Stande kommt?
Um solche Fragen zu klären, riefen der Molekularbiologe John Moult und sein Kollege Krzysztof Fidelis im Jahr 1994 einen Wettbewerb ins Leben, der ab dann alle zwei Jahre stattfand: die CASP-Competition (für »Critical Assessment of Protein Structure Prediction«). Die beiden Initiatoren veröffentlichten die Aminosäuresequenzen von Proteinen, deren Struktur kurz zuvor experimentell ermittelt worden war – die Ergebnisse blieben aber vorerst unter Verschluss. Forscher und Forscherinnen weltweit sollten nun die dreidimensionale Struktur dieser Proteine anhand der Aminosäuresequenz ermitteln – egal, auf welche Art und Weise. Die Einreichungen wurden anschließend mit den experimentell ermittelten Daten verglichen. Diese Art von Wettbewerb sollte das Gebiet der Proteinstrukturvorhersage voranbringen.
Ein Wettbewerb für die beste Strukturvorhersage
Anfangs fielen die Ergebnisse noch mager aus. Keine 40 Prozent Übereinstimmung fanden sich. Das änderte sich schlagartig, als ein Quereinsteiger 2018 den Wettbewerb aufmischte: Demis Hassabis. Der Programmierer hatte nach einer Karriere als Spieleentwickler Neurowissenschaften studiert und dabei Anregungen für die Entwicklung von KI-Algorithmen gesammelt. Anschließend gründete er mit Kollegen das KI-Unternehmen DeepMind, das mittlerweile zu Alphabet gehört, dem Mutterkonzern von Google. 2015 machte DeepMind Schlagzeilen, weil dessen KI-Algorithmus »AlphaGo« den besten menschlichen Teilnehmer im Brettspiel Go besiegte – eine Leistung, die man KI bis dahin nicht zugetraut hätte. Und 2018 gewann DeepMind den CASP-Wettbewerb mit seinem Proteinvorhersage-Algorithmus AlphaFold.
Das war allerdings erst der Anfang. Die Ergebnisse der KI waren zwar deutlich besser als die der Mitbewerber. Mit rund 60 Prozent Genauigkeit waren sie jedoch noch weit von einer verlässlichen Vorhersage entfernt. Mindestens 90 Prozent Übereinstimmung mit den experimentellen Ergebnissen hatten die CASP-Initiatoren als Ziel ausgelobt. Und die Entwickler sahen keine Möglichkeit, ihre Software mehr als nur inkrementell zu verbessern.
Ein Durchbruch mit dramatischen Folgen
Bereits in der nächsten Runde, 2020, entschied DeepMind den Wettbewerb jedoch endgültig für sich. Mit im Team war der junge theoretische Physiker John Jumper, und er brachte mit, was den Computerwissenschaftlern fehlte: einen Hintergrund in Biophysik und Proteindynamik. Erst 2017 hatte der gebürtige US-Amerikaner promoviert – zur Frage, wie man Proteinfaltung und -dynamik mittels maschinellen Lernens vorhersagen kann.
Das Team schickte ein Update ihrer KI-Software ins Rennen, AlphaFold2. Sie basiert weiterhin auf künstlichen neuronalen Netzen, jedoch mit zwei entscheidenden Neuerungen: Zum einen floss Jumpers Wissen in die Strukturfindung mit ein. So arbeitet der Algorithmus mit gewissen Grundannahmen, etwa geometrischen oder physikalischen Einschränkungen der Struktur. Zum anderen fußt die KI auf so genannten Transformer-Netzwerken, einer neuen Art besonders leistungsfähiger und flexibler neuronaler Netzwerke, die auch Anwendungen wie ChatGPT zu Grunde liegen. Besonders an ihnen ist, dass sie mit der Zeit lernen, auf welche Aspekte eines Problems sie sich fokussieren müssen, damit sich das Ergebnis verbessert. Das Nobelpreiskomitee bezeichnete die Architektur von AlphaFold2 als »den ersten echten wissenschaftlichen Durchbruch von künstlicher Intelligenz«. Bevor AlphaFold2 ins Rennen geschickt wurde, trainierten seine Entwickler es mit mehreren hunderttausend bekannten Proteinstrukturen und deren Aminosäuresequenzen.
Der Aufwand zahlte sich aus. AlphaFold2 sagte die Strukturen von der Mehrzahl der gefragten Proteine mit 90 Prozent Genauigkeit vorher. Damit ist es ebenso präzise wie die Röntgenstrukturanalyse. Anders gesagt: Ob man sich die Mühe macht, ein Protein herzustellen und zu untersuchen, oder die Aminosäuresequenz mit der KI AlphaFold2 vorhersagen lässt, läuft auf dasselbe hinaus. An die Stelle von monate- oder jahrelanger Laborarbeit treten wenige Minuten Rechenzeit.
2021 stellten Jumper und Hassabis ihre Software der Öffentlichkeit vor und machten sie frei zugänglich, so dass jede Forschungsgruppe nun mit dem Programm Proteinstrukturen vorhersagen kann. Für die Wissenschaft war das ein Gamechanger. Mehr als zwei Millionen Menschen haben das Programm seither benutzt. Bis heute wurden mit AlphaFold2 fast sämtliche der heute bekannten 200 Millionen Proteinstrukturen entschlüsselt. Sie alle finden sich in der öffentlich zugänglichen Datenbank. Mit dem Nobelpreis 2024 ehrt das Nobelkomitee nicht nur ein computerbasiertes Verfahren zum Design von Proteinen, sondern auch eine der ersten wirklich bedeutenden Anwendungen von künstlicher Intelligenz. Inzwischen kommen KI-basierte Verfahren auch zunehmend beim Design von neuen Proteinen zum Einsatz. Die neuronalen Netze schicken sich damit an, die Maschinen der Natur nicht nur zu entschlüsseln, sondern auch das ursprüngliche Ziel von Baker und seinen Vorgängern zu verwirklichen: die Natur selbst zu übertreffen.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.