Das Hefegenom - von der Sequenz zur Funktion

Dr. Dmitrij Frishman, Dr. Klaus Heumann und Dr. Hans Werner Mewes

Die Bier- oder Bäckerhefe Saccharomyces cerevisiae nimmt unter den fünf Organismen, bei denen bisher die Abfolge sämtlicher Bausteine (Basen) der gesamten Erbsubstanz (DNA) ermittelt werden konnte, einen herausragenden Platz ein. Mit 16 Chromosomen, 5800 Genen und mehr als 12 Millionen Basenpaaren ist ihr Genom nicht nur viel größer, sondern auch weitaus komplexer als das der vier anderen komplett sequenzierten Lebewesen. Handelt es sich bei diesen um die einfachen, kernlosen (prokaryotischen) Bakterien Mycoplasma genitalium (0,58 Millionen Basenpaare), Methanococcus jannaschii (1,7 Millionen Basenpaare), Haemophilus influenzae (1,8 Millionen Basenpaare) und Escherichia coli (4,2 Millionen Basenpaare), so kann S. cerevisiae als Einzeller mit echtem Kern (Eukaryot) und differenzierter Zellstruktur als Prototyp für den Aufbau des Erbguts höherer Organismen dienen, das bis zu mehrere Milliarden Basenpaare enthält.

Die Sequenzierung des Hefegenoms war das größte bisher in der Molekularbiologie durchgeführte Gemeinschaftsprojekt. Mehr als 600 Wissenschaftler aus Europa, Kanada, den USA und Japan teilten sich Arbeit und Erfolg ("Nature", Band 387, Supplement, 29. Mai 1997; "Science", Band 274, Seiten 546 bis 567, 25. Oktober 1996). Dabei ist die führende Rolle der Europäischen Kommission hervorzuheben: Sie gab den Anstoß für das Projekt, und mehr als die Hälfte der Sequenzierung wurde in von ihr geförderten Laboratorien durchgeführt.

Die systematische Aufklärung kompletter Genome bedeutet einen enormen Sprung gegenüber der im kleinen Maßstab üblichen, meist fragmentarischen Suche nach einzelnen Genen. Das Ergebnis enthält, wenn auch verschlüsselt, das Inventar aller genetischen Elemente und ist nicht verzerrt durch die Suche nach Enzymen oder Faktoren, deren Mutation sich erkennbar auf das äußere Erscheinungsbild (den Phänotyp) des Organismus auswirkt. Nur etwa ein Viertel der Hefegene war vor Beginn der systematischen Sequenzierung bekannt, und bei einem überraschend hohen Anteil der neu gefundenen Gene konnte bisher nicht festgestellt werden, welche Rolle im zellulären Geschehen ihr Proteinprodukt spielt. Die Aufklärung der molekularen Wechselwirkungen in einer Zelle erfordert jedoch die Kenntnis der Funktion aller Partner.

Ging es in der klassischen Biochemie primär um Einsichten in die Stoffwechselvorgänge, das heißt um Struktur und Wirkungsweise der beteiligten Enzyme, so kehrt sich bei Kenntnis der kompletten Genomsequenz die Vorgehensweise genau um: Nicht mehr das Biomolekül, das eine bestimmte, bekannte Aufgabe hat, wird gesucht, sondern die Funktion eines in seiner Sequenz bekannten genetischen Elements beziehungsweise des zugehörigen Proteinprodukts.

Dabei kommt der Bioinformatik als einer neuen, fachübergreifenden Disziplin eine stetig steigende Bedeutung zu. Ihre vielfältigen Aufgaben in einem Sequenzierungsprojekt beginnen allerdings schon früher. So hilft der Computer bereits dabei, die einzeln analysierten Fragmente (beim Hefegenom waren es ungefähr 300000) anhand überlappender Abschnitte korrekt zu einem durchgehenden chromosomalen Strang zusammenzufügen und zugleich die Rohdaten auf Fehler zu kontrollieren; das geschieht meist noch lokal in den Sequenzierlabors. Anschließend gilt es, die Sequenzdaten und die zugehörige biologische Information systematisch in computerlesbarer Form darzustellen und als Datenbank zu organisieren. Für das Hefegenom hat die Arbeitsgruppe MIPS (Münchner Informationszentrum für Proteinsequenzen) am Max-Planck-Institut für Biochemie in Martinsried diese Aufgabe übernommen. Erst nach dieser Vorarbeit kann mit der detaillierten Analyse der Sequenz im Hinblick auf die Funktion einzelner Erbfaktoren begonnen werden.

Dabei geht es vor allem darum, in den DNA- und Proteinsequenz-Datenbanken nach verwandten Genen zu suchen, bei denen bereits Informationen über funktionelle Eigenschaften vorliegen. Diese Suche schließt auch die regulierenden DNA-Elemente der Transkription ein. Die theoretische In-silicio-Analyse der Bioinformatik und die experimentelle Funktionsanalyse ergänzen einander wirkungsvoll. Durch den Vergleich mit bekannten Sequenzen können Kandidaten für Experimente ausgewählt und Vermutungen überprüft werden. So läßt sich et-wa die Hypothese "Gen X codiert für ein mitochondriales Membranprotein" verifizieren, indem man X gezielt experimentell zerstört und prüft, ob dies mitochondriale Dysfunktionen zur Folge hat. Die quantitative Expressionsanalyse (Unter welchen Bedingungen wird Protein X synthetisiert?) oder die Untersuchung von Protein-Protein-Wechselwirkungen (Welcher Eiweißstoff interagiert mit welchem?) liefern ihrerseits Daten, die zur Aufklärung der Funktion unbekannter Gene beitragen.

Die Sequenzierung des Erbguts von S. cerevisiae hat nicht nur der Hefeforschung kräftige Impulse gegeben. So initiierten das Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF) und die Europäische Kommission umgehend Programme, deren Ziel es ist, durch systematisches Zerstören bisher nicht charakterisierter offener Leserahmen (DNA-Abschnitte, die so aussehen, als codierten sie für ein Protein) deren Funktion zu ermitteln. Vor allem die Untersuchung von Hefegenen, die nahe Verwandte im menschlichen Erbgut haben, ist von hohem wissenschaftlichem Interesse. So wurden etliche Homologe zu Genen gefunden, die menschliche Erbdefekte tragen. Diese lassen sich jetzt effizient im Modellsystem Hefe untersuchen. Das gilt zum Beispiel für einige Formen von Ataxia, einer Erbkrankheit mit schweren Schäden der Bewegungskoordination.

Diese Ergebnisse weckten auch das Interesse der chemisch-pharmazeutischen Industrie. Mehr als 20 europäische Firmen haben sich in der Yeast Industry Platform organisiert, um gemeinsam mit den Grundlagenforschern die praktischen Anwendungsmöglichkeiten des Hefemodells zu erkunden. Eine Reihe wichtiger industrieller Einsatzgebiete läßt sich bereits angeben. So eignet sich die Hefe als Modellsystem zur Untersuchung von Protein-Protein-Wechselwirkungen, zur Identifizierung von Zielstrukturen pharmakologischer Wirkstoffe, zur Charakterisierung fungizider (Pilze abtötender) Substanzen, zur Arzneimittelproduktion und zur umweltfreundlichen Herstellung von Feinchemikalien.

Vergleicht man Aufwand und Ergebnis, so ist die systematische Sequenzierung ganzer Genome eine sehr effiziente Technik zur Gewinnung fundamentaler biologischer Fakten. Man kann von einer quantitativen Biologie sprechen, deren Ergebnisse sich zunächst streng alphanumerisch darstellen lassen. Nucleinsäuresequenzen werden dabei einfach als Zeichenketten eines Alphabets aus vier Buchstaben, den Symbolen G, A, T und C der Basen Guanin, Adenin, Thymin und Cytosin bearbeitet. Auf diese Zeichenketten läßt sich ein ganzes Repertoire von Algorithmen zur Muster- und Ähnlichkeitssuche, zur Übersetzung der DNA in hypothetische Proteine und zur Verknüpfung der genetischen Elemente mit dem experimentell erworbenen Wissen in Datenbanken anwenden.

Ein glücklicher Umstand ist, daß parallel zur Sequenzierung des Hefegenoms Leistungsfähigkeit wie Verbreitung von Computern, Anwendungsprogrammen und elektronischen Kommunikationssystemen geradezu explosiv zugenommen haben. Verfügten zu Beginn des Projekts (1989) nur wenige Labors über Rechenanlagen und Software zur Analyse von Sequenzdaten, so stehen die Ergebnisse der Genomanalyse von Hefe heute weltweit praktisch in jedem Labor über das Internet zur Verfügung. Dies hat auch den Umgang mit biologischen Daten radikal verändert: Als im April 1996 die Sequenz des Hefegenoms im Internet veröffentlicht wurde, zählten wir mehr als 10000 Zugriffe auf unseren Rechner an einem Tag; seither sind es noch mindestens 100000 pro Monat. In gedruckter Form würde die Sequenz allein ungefähr 2400 (wertlose) Seiten füllen; eine Zusammenfassung der Ergebnisse wurde erst gut ein Jahr später veröffentlicht ("Nature", Band 387, Supplement, 29. Mai 1997). So eröffnet die Möglichkeit der unmittelbaren elektronischen Publikation der Nutzung fundamentaler biologischer Informationen eine neue Dimension.

Wir haben zur Darstellung des Hefegenoms eine Oberfläche entwickelt, die eine einfache symbolische Visualisierung der Chromosomen erlaubt. Durch vielfältige Verknüpfungen von Datenelementen ist es möglich, mit den gängigen Programmen zum Abruf von Informationen aus dem Internet (Browsern) durch das Erbgut zu navigieren. Eine wichtige Rolle spielt dabei der Katalog, in dem die Hefegene nach ihrer Funktion gruppiert sind. Bisher konnte etwa die Hälfte funktionell charakterisiert und in 11 Haupt- und 154 Subklassen eingeteilt werden. Jedes einzelne der zugehörigen Proteine ist detailliert beschrieben – einschließlich der strukturellen Eigenschaften und der Homologiebeziehungen zu verwandten Proteinen aus anderen Organismen. Diese Angaben sind über das World Wide Web (WWW) unter der Adresse http://www.mips.biochem.mpg.de jedem zugänglich und finden sich zusammen mit ergänzenden Informationen auf einer von uns entwickelten CD-ROM.

Anhand der Sequenzdaten, die für eine schnell wachsende Zahl weiterer Genome vorliegen werden, lassen sich hochinteressante Fragen untersuchen. Dazu gehören die Vergleiche einzelner Stoffwechselwege oder die Untersuchung evolutionärer Beziehungen.

Ein ganz neuer Aspekt ergibt sich durch die Möglichkeit, die Spuren der Evolution innerhalb des Genoms einer einzelnen Art zu untersuchen, was mit traditionellen phylogenetischen Methoden nicht möglich ist. So war bekannt, daß viele Hefeproteine untereinander verwandt sind, also von einem gemeinsamen Vorläufer abstammen, der sich irgendwann verdoppelte. Durch die Entwicklung einer Methode zur Visualisierung der Genredundanz konnten wir nun aber zeigen, daß die Gene vielfach nicht einzeln, sondern in großen zusammenhängenden Gruppen verdoppelt worden sind (Bild). Insgesamt ist fast ein Drittel des Hefegenoms das Ergebnis solcher kollinearen Clusterduplikationen, bei denen lange, mehrere Gene umfassende DNA-Stücke in ein anderes Chromosom kopiert wurden. Dies ließ sich erst feststellen, als die komplette Sequenzierung die Möglichkeit geschaffen hatte, beliebige Abschnitte des Genoms miteinander zu vergleichen und die Lage der Duplikationen auf den Chromosomen darzustellen.

Die systematische Untersuchung einer großen Zahl von Organismen stellt die Bioinformatik vor eine gewaltige Herausforderung. Bis zu einer halben Million neue Gene werden für die nächsten zehn Jahre erwartet; etwa 200 prokaryotische und ein gutes Dutzend eukaryotische Organismen stecken bereits in den Sequenziermaschinen oder sind auf dem Weg dorthin (siehe http://www.mcs.anl.gov/home/gaasterl/genomes.html). Demnach dürfte in kurzer Zeit ein phantastischer Thesaurus der genetischen Elemente die Biowissenschaften und vor allem die Medizin auf eine neue Grundlage stellen.

Selbst bei minimalem Aufwand wird es dann freilich nicht mehr möglich sein, Vergleiche individuell durchzuführen. In einem ersten Schritt haben wir deshalb ein Verfahren für die automatische Analyse von Genomen entwickelt; mit dem PEDANT genannten Programm lassen sich in kurzer Zeit die wichtigsten Informationen bereitstellen und aktualisieren.

Deutsche Arbeitsgruppen haben im Rahmen der EU-Projekte einen wichtigen Beitrag zur Sequenzierung des Hefegenoms geleistet. Trotzdem fristete die systematische Genomanalyse in der Bundesrepublik lange ein Schattendasein, während in den USA und in Großbritannien Zentren aufgebaut wurden, die für Millionen von Basen pro Tag die Abfolge bestimmen können. Mit dem Start des deutschen Beitrags zur Sequenzierung des Humangenoms sowie den Initiativen der Deutschen Forschungsgemeinschaft, der Helmholtz-Gemeinschaft der Großforschungseinrichtungen und des BMBF für eine verstärkte Förderung der Genomforschung hat sich dies nun geändert. Offenbar ist auch in der Bundesrepublik inzwischen die Erkenntnis gereift, welch bedeutende Rolle die Genom- und Funktionsanalyse sowie die Bioinformatik in der medizinischen Forschung und bei der Entwicklung eines breiten Spektrums biotechnologisch erzeugter Produkte in einem schnell wachsenden Markt spielen wird.

Aus: Spektrum der Wissenschaft 8 / 1997, Seite 22
© Spektrum der Wissenschaft Verlagsgesellschaft mbH

Download (Abo)

Kennen Sie schon …

Spektrum Kompakt – Proteine - Die Arbeitskräfte der Zelle

Betrachtet man Zellen als eine Art Stadt, dann sind die Proteine darin so etwas wie die Arbeitskräfte in der essenziellen Infrastruktur: Ohne funktionierende Müllabfuhr, ÖPNV oder Trinkwasserversorgung bricht das System schnell zusammen.

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!