Projekt "ENCODE": Was zwischen den Genen steckt
Ewan Birney würde gerne einmal all die Gendaten ausdrucken, die er und seine Mitarbeiter in den vergangenen fünf Jahren im Rahmen von ENCODE, der "Encyclopaedia of DNA Elements", gesammelt haben. Nur: Selbst wenn man auf jeden Quadratzentimeter Papier 1000 DNA-Basenpaare druckte, würde sich der Ausdruck zu einer 16 Meter hohen und 30 Kilometer langen Wand auftürmen.
Mit seinem enormen Datensatz will das ENCODE-Projekt da weitermachen, wo das Humangenomprojekt einst aufhörte. Mit schierem Aufwand hatten die Wissenschaftler damals den "Bauplan" der menschlichen Biologie entziffert. Nur das passende Handbuch gab es nicht dazu, wie die Forscher rasch einsehen mussten. Zwar konnten sie in den drei Milliarden Gen-"Buchstaben" diejenigen Abschnitte ausfindig machen, die für Proteine kodieren. Doch diese rund 20 000 Gene stellen gerade einmal ein gutes Prozent der Gesamt-DNA – ein paar vertraute Wegmarken in einer ansonsten völlig fremden, weiten Landschaft.
Was, wenn die Information, der die Menschen ihre Komplexität verdanken, genau in den Einöden zwischen den Genen liegt? Das begannen sich bald viele Biologen zu fragen. ENCODE ist nun der Versuch, diese riesigen Strecken erstmals umfassend zu kartieren. Mit Hilfe der massiven Datensammelaktion sollen die "funktionalen" DNA-Abschnitte in diesen Zwischenräumen katalogisiert werden, es soll nachverfolgt werden, in welchen Zellen sie wann aktiv werden und welchen Einfluss sie auf das Verpacken, Regulieren und Auslesen von Erbinformationen haben.
Nach Abschluss der Testphase im Jahr 2007 begannen die ENCODE-Wissenschaftler ihre Methoden auf das gesamte Genom anzuwenden. Auch diese Phase nähert sich nun ihrem Abschluss, begleitet von 30 Veröffentlichungen in "Nature", "Genome Research" und "Genome Biology". Das Forschungskonsortium hat knapp 80 Prozent des Genoms zumindest eine grobe Funktion zuweisen können. Darunter sind beispielsweise 70 000 so genannte Promotor-Regionen im unmittelbaren Vorfeld der Gene – an sie binden Proteine, die die Genexpression regeln – sowie annähernd 400 000 "Enhancer", die das Ablesen entfernterer Gene steuern.
Keine Zeit zum Zurücklehnen
Zeit, die Hände in den Schoß zu legen, ist dennoch nicht, meint Birney, der als Bioinformatiker am European Bioinformatics Laboratory des European Molecular Biology Laboratory im britischen Hinxton forscht. Birney war maßgeblich für die Koordination der Datenauswertung zuständig. Einige der Kartierungsanstrengungen seien gerade erst bei der Halbzeit angelangt, und eine tiefgründigere Charakterisierung der Vorgänge im Genom liege lediglich für rund zehn Prozent des Materials vor. Das ist nun Schwerpunkt der dritten Projektphase: noch mehr Details erfassen und schließlich das "Handbuch für das menschliche Genom" vollständig niederschreiben.
Praktisch jeder, der schon einmal aus diesem Wissensquell Daten schöpfen durfte, ist fasziniert von diesen Aussichten. Wie beeinflussen genetische Varianten das Verhalten der Menschen, wie ihre körperlichen Merkmale? Und kann man aus ihnen auf die Entstehung von Krankheiten zurückschließen? Oder gar auf die Evolutionsgeschichte des Menschen? Auf all diese Fragen erhoffen sich Forscher Antworten in den Myriaden regulatorischer Elemente, die das Projekt bislang verzeichnet hat.
Man müsse allerdings auch fragen dürfen, ob nicht irgendwann einmal genug sei, meinen kritische Geister wie Chris Ponting. "Das Ganze hat sich zu einem Selbstläufer entwickelt", sagt der Bioinformatiker von der University of Oxford. Auch wenn er die Ziele des alles in allem geschätzte 185 Millionen Dollar teuren Projekts insgesamt unterstützt, zweifelt er daran, dass es sich in jeder Hinsicht auszahlen wird. Job Dekker, ENCODE-Gruppenleiter an der University of Massachusetts Medical School in Worcester, mahnt hingegen zur Geduld: "Es kann manchmal sehr lang dauern, bis man sieht, welche Erkenntnisse man aus einem gegebenen Datensatz ziehen kann."
Die Idee hinter ENCODE hat eine lange Vorgeschichte. Bereits vor Abschluss des Humangenomprojekts befürwortete das National Human Genome Research Institute (NHGRI), die wichtigste US-amerikanische Fördereinrichtung im Bereich Humangenetik, eine systematische Suche nach funktionalen Abschnitten in der DNA. Im Jahr 2003 wandte sich das Institut mit der Bitte an Biologen, Vorschläge für Pilotprojekte einzureichen, die diese Aufgabe für ein Prozent des Genoms leisten könnten. Dabei sollte sich sukzessive erweisen, welche Technik am besten geeignet ist.
Für viele Biologen änderten bereits die Pilotprojekte ihre Sicht der Dinge grundlegend. Obwohl nur ein winziger Teil der DNA unmittelbar an der Herstellung der RNA-basierten Proteinbaupläne beteiligt ist, mussten sie feststellen, dass deutlich mehr DNA abgelesen und in RNA übersetzt wird. Diese nichtkodierenden RNA-Abschnitte sind – wie man inzwischen weiß – zentrale Mitspieler bei der Genregulation.
Sicht der Dinge grundlegend verändert
Auch die Annahme, dass solche regulatorischen RNA-Abschnitte bei allen Tierarten mehr oder weniger unverändert vorliegen müssten, entpuppte sich als falsch. Tatsächlich haben sich die entsprechenden Sequenzen im Lauf der Evolution stark verändert.
Mit einem ersten Schwung an Ergebnissen kam das Konsortium im Jahr 2007 heraus. Kurz zuvor hatte das NHGRI eine weitere Anfrage in den Kreis der Forscher geschickt, diesmal an Wissenschaftler gerichtet, die bereit wären, die Suche auf das ganze Genom auszudehnen. Phase zwei nahm damit just dann ihren Anfang, als Sequenziermaschinen der nächsten Generation marktreif wurden. Sie erlaubten eine viel schnellere und billigere Datengewinnung. "Ich glaube, wir haben damals fünfmal so viele Daten produziert, wie wir ursprünglich vorhatten – bei gleichen Kosten", sagt der ENCODE-Gruppenleiter John Stamatoyannopoulos von der University of Washington in Seattle.
In 32 Gruppen, die insgesamt mehr als 440 Wissenschaftler umfassten, konzentrierte man sich schließlich auf die 24 Standardexperimente zur Erforschung des Genoms: Die Teams isolierten und sequenzierten die RNA-Abschriften des Genoms, identifizierten die Andockstellen für rund 120 regulierende so genannte Transkriptionsfaktoren. Sie erfassten die Regionen, in denen der Erbgutstrang mit Methylgruppenanhängseln bedeckt ist, was im Allgemeinen auf Bereiche mit stillgelegten Genen hindeutet. Sie untersuchten, welche Muster sich bei der chemischen Modifikation von Histonen zeigen würden, also jenen Bausteinen, die beim Verpacken der DNA in Chromosomenform mitwirken – hier kann die Genexpression entweder verstärkt oder gedämpft sein.
Und auch wenn das Genmaterial in praktisch allen Körperzellen das gleiche ist, so unterschiedet sich die Genregulation doch drastisch. Also machten die Wissenschaftler sämtliche Experimente mit mindestens 147 verschiedenen Zelltypen. Am Ende standen so ganze 1648 Experimente auf dem Plan, über deren Ausgang das ENCODE-Konsortium in dieser Woche berichtet.
Stamatoyannopoulos und seine Mitarbeiter ermittelten beispielsweise die regulatorischen Abschnitte in 125 Zelltypen mit Hilfe des Enzyms DNaseI. Das Enzym beeinflusst kaum die DNA, die sich eng um Histonmoleküle windet, zerstückelt aber DNA, die an anderen regulatorischen Proteinen wie zum Beispiel Transkriptionsfaktoren haftet. Wenn man nun die zerhäckselte DNA sequenziert, erhält man einen Anhaltspunkt darüber, wo diese Proteine in den unterschiedlichen Zelltypen andocken. Das Team kam so insgesamt 2,9 Millionen Stellen auf die Spur. Etwa ein Drittel davon war jeweils für einen einzigen Zelltyp spezifisch, und lediglich 3700 Stück traten in sämtlichen Zelltypen auf. Daraus schließen die Forscher, dass sich die Genregulation von Zelle zu Zelle erheblich unterscheidet.
Daten kombinieren
Der eigentliche Spaß beginnt jedoch erst, wenn die verschiedenen Datensätze übereinandergelegt werden. Experimente, die Histonmodifikationen betrachten, spucken beispielsweise Gensequenzen aus, die den Grenzen jener Regionen entsprechen, die auf DNaseI reagieren. Andere Forscher können dann Daten hinzufügen, die zeigen, welche Transkriptionsfaktoren dort binden und wann genau. So haben die Wissenschaftler inzwischen große Abschnitte der einstmaligen Einöde mit hunderttausenden Einzelinformationen über die Genregulation bevölkert, von denen jeder Zelltyp seine eigenen, individuellen Kombinationen zu verwenden scheint. Die Vielfalt, die daraus entsteht, könnte erklären, wie aus relativ wenigen proteinkodierenden Abschnitten die biologische Komplexität eines menschlichen Körpers entsteht.
ENCODE ist "daher viel mehr als nur die Summe seiner Teile", sagt Manolis Kellis, Gen-Informatiker vom Massachusetts Institute of Technology, der einige der Datenauswertungen leitete.
Bereits jetzt helfen Befunde, die das Konsortium während der Laufzeit der zweiten Phase publizierte, beim Verständnis von Erbkrankheiten. Seit 2005 haben so genannte genomweite Assoziationsstudien (GWAS) tausende Stellen aufgezeigt, wo eine Änderung einzelner "Buchstaben" mit einem erhöhten Krankheitsrisiko einhergehen. Nahezu 90 Prozent solcher Varianten liegen außerhalb proteinkodierender Abschnitte, daher fehlt den Wissenschaftlern in den meisten Fällen ein Anhaltspunkt, wie die Genveränderung mit der jeweiligen Erkrankung in Zusammenhang stehen könnte.
Die genetische Landkarte des ENCODE-Projekts offenbart nun, dass viele dieser krankheitsrelevanten Stellen im Bereich von Enhancern oder anderen funktionellen Sequenzen liegen – und dass der Zelltyp eine Rolle spielt: Kellis' Gruppe nahm beispielsweise einige Varianten in Ausgenschein, die mit systemischem Lupus erythematodes assoziiert sind, einer Autoimmunkrankheit, bei der das Immunsystem gesundes Gewebe attackiert.
Wie sich zeigte, liegen jene Lupus-Genvarianten, die bei den GWAS identifiziert worden waren, zumeist in Kontrollregionen, die in Immunzellen aktiv sind. In anderen Zelltypen scheinen sie jedoch zu schweigen. Ein Webportal, das Kellis' Postdoc Lucas Ward auf die Beine stellte, erlaubt es jetzt Forschern, systematisch GWAS-Daten mit ENCODE-Daten abzugleichen. "Dank ENCODE können wir uns nun auf wesentlich komplexere Krankheiten stürzen", meint Kellis.
Schon die bislang gesammelten Daten genügen, um Wissenschaftler über Jahre hinweg beschäftigt zu halten. Aber weit mehr steht ihnen noch ins Haus. Auf ihrer Website hat die University of California in Santa Cruz eine aufschlussreiche grafische Darstellung des Fortschritts von ENCODE eingestellt: Das Diagramm zeigt, welche der 24 Standardexperimente für welche der 180 Zelltypen bereits durchgeführt wurden – nur eine Hand voll Felder ist gefüllt. Lediglich die am weitesten verbreiteten Zelllinien, wie die HeLa-Zelllinie oder GM12878, weisen eine einigermaßen gefüllt Bilanz auf.
Zu den falschen Zellen gegriffen?
Die verbleibenden Lücken planen die Forscher nun in der dritten, der "Ausbauphase", zu schließen, sagt Birney. Gleichzeitig sollen aber noch weitere Zelltypen und Experimente auf die Liste gesetzt werden: etwa durch Ausweitung einer Technik namens Chromatin-Immunopräzipitation (ChIP), mit der alle Sequenzen erfasst werden, die an ein bestimmtes Protein binden, Transkriptionsfaktoren und modifizierte Histone eingeschlossen. Mit einem noch sehr mühsamen Verfahren entwickeln Forscher dazu Antikörper für jedes einzelne dieser Proteine und nutzen diese dann, um das Protein und alle daran hängenden DNA-Stränge aus der Zelle zu extrahieren. Die Erbgutabschnitte lassen sich anschließend sequenzieren.
Immerhin ist bei dieser Methode irgendwann ein Ende absehbar, erklärt Birney, denn es gibt nach heutigen Schätzungen nur rund 2000 Proteine, die dafür in Frage kommen (ein Zehntel davon hat ENCODE bereits untersucht). Viel schwieriger ist es hingegen, sich auf Zelllinien zu einigen. Bisher haben sich die Teams überwiegend auf solche beschränkt, die sich schnell und leicht in Kulturen züchten lassen.
Diese Eigenschaft verdanken sie aber in vielen Fällen völlig unnatürlichen Eingriffen: Die GM12878-Linie wurde seinerzeit aus Blutzellen erzeugt, denen man mit Hilfe eines Virus die Fähigkeit zur Reproduktion verliehen hat. Gut möglich, dass Histone und andere Proteine ganz anders an ein derart aufgebohrtes Erbgut binden. Die HeLa-Linie wurde vor über 50 Jahren bei einer Gebärmutterhalskrebsbiopsie gewonnen und ist durchsetzt mit genetischen Abnormalitäten. Bei einem Vortrag witzelte Birney kürzlich, dass sie "schon fast als neue Spezies" zu betrachten sei.
Daher wollen sich die ENCODE-Forscher künftig Zellen vornehmen, die unverändert aus menschlichen Körpern gewonnen wurden. Weil sich aber solche Zellen meist schwer kultivieren lassen und manche Gewebe – wie beispielsweise das Gehirn – nur mit größerem Aufwand beprobt werden können, müssen entsprechende Experimente mit sehr geringen Mengen DNA auskommen.
Die ENCODE-Wissenschaftler planen außerdem, tiefer in Bereiche interindividueller genetischer Variationen einzutauchen. Wie beeinflussen sie die Regulation des Genoms? "An irgendeinem Punkt gibt es die ein oder andere Veränderung in der Sequenz, die dazu führt, dass ein Transkriptionsfaktor hier ganz anders andockt als dort", sagt der Bioinformatiker Mark Gerstein von der Yale University in New Haven, der die Datenarchitektur des ENCODE-Projekts mitentwickelte. Irgendwann könnten die Wissenschaftler vielleicht sogar anfangen, Dutzende oder Hunderte von Proben verschiedener Menschen miteinander zu vergleichen.
Auch die Bandbreite der Experimente weitet sich aus. Sehr rasch entwickelt sich beispielsweise ein Forschungsfeld, bei dem Experten die Interaktionen genetischer Elemente im dreidimensionalen Raum betrachten. Enhancer können etwa weit entfernte Gene beeinflussen, wenn sich der DNA-Strang dazwischen zu einer Schleife krümmt und sich Proteine an den beiden Stellen so weit annähern, dass sie interagieren können. Dekker und Kollegen haben eine Technik entwickelt, mit der sich solche Zusammenhänge erfassen lassen.
Kein Ende in Sicht
In einem ersten Schritt verwenden sie dazu Chemikalien, die die DNA-bindenden Proteine aneinanderheften. Dann schneiden sie die Schleife aus und sequenzieren die festgesetzte DNA. Derzeit weiten sie das Verfahren auf Wechselwirkungen im gesamten Genom aus. "Das geht über eine bloße Funktionszuweisung zu einzelnen DNA-Abschnitten hinaus. Es ist eine Art Phase zwei", meint Dekker.
Die Frage ist nur, wo aufhören? Laut Kellis dürften einige Ansätze bald eine Sättigungszone erreichen: Ab einem bestimmten Punkt ist der Erkenntnisgewinn zu gering, um noch der Mühe wert zu sein. Vielleicht gelingt es eines Tages auch, aus bekannten Daten auf das Verhalten noch unerforschter Genabschnitte zurückzuschließen – ein lang gehegtes Ziel der Genetiker. "Ich glaube, dass sich die Verhältnisse irgendwann umkehren werden", sagt Kellis. Ab dann sei die Extrapolation aus Bekanntem tatsächlich leistungsfähiger und genauer als das eigentliche Experiment.
Mit tausenden Zelltypen, die noch auf ihre Untersuchung warten, und einem immer umfassender werdenden Werkzeugkoffer könnte das Projekt theoretisch ewig weiterlaufen. "Wir sind weit davon entfernt, das als erledigt zu betrachten", bekräftigt der Genetiker Rick Myers vom HudsonAlpha Institute for Biotechnology in Huntsville (US-Bundesstaat Alabama).
Für einige ein Grund, sich Sorgen zu machen: Das ENCODE-Pilotprojekt kostete geschätzte 55 Millionen Dollar, die Ausweitungsphase schlug mit rund 130 Millionen zu Buche; für Phase drei hat das NHGRI bereits 123 Millionen in Aussicht gestellt.
Die Ausbeute sei demgegenüber unverhältnismäßig mager, wenden eine Reihe von Wissenschaftlern ein. Allerdings ist es schwierig, detaillierte Informationen darüber zu erhalten, wie die ENCODE-Daten letztendlich verwendet werden. Mike Pazin, Arbeitsgruppenleiter beim NHGRI, hat die Literatur auf der Suche nach Studien durchforstet, die auf den ENCODE-Daten aufbauen. Bei rund 300 wurde er fündig, davon stammen 110 von Labors, die keinerlei ENCODE-Funding erhalten haben. Für Pazin war das keine triviale Aufgabe, denn das Wort "encode" taucht unglücklicherweise in so gut wie jeder Publikation zu Genetik auf. "Merke: Das nächste Mal einen eindeutigen Projektnamen erfinden!", schmunzelt Pazin.
Wirklicher Durchbruch lässt auf sich warten
Einige Wissenschaftler, die bei der Recherche für diesen Artikel kontaktiert wurden, kritisieren, dass nach nahezu zehn Jahren intensiver Forschung wenig Greifbares dabei herausgekommen und die Auswahl der Zelllinien und der Transkriptionsfaktoren eher willkürlich verlaufen sei. Andere halten die Gelder, die das Projekt verschlungen hat, für anderswo besser aufgehoben, zum Beispiel bei Projekten, in denen ein Forscher eine eigene Hypothese aufwirft und speziell für diese Untersuchung Förderung beantragt. Ähnliche Beschwerden gab es allerdings auch schon während des Humangenomprojekts. Aber immerhin habe dieses einen eindeutigen Abschluss gehabt, wie Kritiker bemängeln. (Keiner dieser Wissenschaftler wollte übrigens mit seinem Namen hier erscheinen, aus Angst, damit sich oder den eigenen Mitarbeitern Zugang zu Stipendien und Fördergeldern zu verbauen.)
Auch Briney vertritt die Ansicht, dass hypothesengetriebene Forschung mehr finanzielle Unterstützung benötigt. Es handle sich bei beiden Zugängen jedoch nicht um konkurrierende Ansätze. Das NHGRI verwendet einen Großteil seiner Fördergelder für große Forschungskonsortien wie ENCODE. Allerdings erhält es nur zwei Prozent des Gesamtbudgets der National Institutes of Health, der großen US-amerikanischen Förderinstitutionen im Bereich biomedizinischer Forschung. Damit verbleiben also immer noch ausreichend gefüllte Fördertöpfe für kleinere, gezieltere Nachforschungen.
Und Birney geht fest davon aus, dass sich der systematische Ansatz von ENCODE eines Tages auszahlen wird: "So banal diese Katalogisierungsaktionen daherkommen mögen, man muss eben erst mal alle Puzzleteile vor sich ausbreiten, bevor man sie wieder zusammensetzen kann."
Außerdem, sagt Gerstein, habe es ja auch über ein halbes Jahrhundert gedauert, um von der Erkenntnis, dass Erbinformationen in DNA steckt, zur Sequenzierung des Genoms zu gelangen. "Es liegt doch quasi auf der Hand, dass das Programm für das kommende Jahrhundert darin besteht, diese Sequenz zu verstehen."
Dieser Artikel erschien unter dem Titel "The Human Encyclopaedia" in Nature 489, S. 46-48, 2012.
Schreiben Sie uns!
1 Beitrag anzeigen