DNA-Datenspeicher: Auf Petabyte pro Gramm

Im letzten Jahr wurden die Speicherprobleme der Zukunft gelöst - mit Hilfe von DNA. Wie man Daten in Erbgut kodiert und warum das Ende der Fahnenstange längst nicht erreicht ist.

von Jan Dönges

DNA-Technologie — © fotolia / adimas (Ausschnitt)

Das lang erwartete Probengefäß, das die Forscher Ewan Birney und Nick Goldman im vergangenen Jahr vom Paketboten in Empfang nahmen, war leer. So erzählte es Goldman auf einer telefonischen Pressekonferenz Mitte letzter Woche.

Dabei sollte das Probengefäß sämtliche Sonette von Shakespeare, ein Foto des Instituts, Watson und Cricks klassisches Papier über die Struktur von DNA, ein MP3-Auszug aus Martin Luther Kings Rede "I have a dream" und eine Datei mit Kodierungsvorschriften enthalten. Alles in allem Daten in einem Gesamtumfang von 739 Kilobyte – in millionenfacher Ausfertigung –, kodiert als DNA-Sequenz. Doch nichts sei zu sehen gewesen von der gefriergetrockneten DNA, die ihnen eine US-amerikanische DNA-Synthesefirma zugeschickt hatte. Erst nach längerem Hin- und Herwenden entdeckte der Informatiker das staubkorngroße Bröckchen, das an der Wand des Röhrchens klebte.

1 Petabyte = 1 048 576 Gigabyte = 1 073 741 824 Megabyte

Über ihre Forschung berichtet das Team um Goldman und den Genetiker Birney jetzt in einer aktuellen Veröffentlichung in "Nature" [1]. Darin demonstrieren sie, dass sich auch schon mit heutigen Mitteln gewaltige Datenmengen in einem Material ablegen lassen, das ohne nennenswerten Aufwand die Jahrtausende überdauert und noch dazu eine Informationsdichte bietet, die gegenwärtige Speichermedien um Längen übertrifft.

Das Vorgehen der Wissenschaftler vom European Bioinformatics Institute (EBI) in Hinxton war eigentlich simpel: Sie betrachteten bei den abzuspeichernden Daten lediglich die binäre Sequenz aus Nullen und Einsen, wie sie auf jeder Festplatte abgespeichert würde. Diese übersetzten sie nach einem selbst entworfenen Kodierungsverfahren in eine Abfolge der Nukleotide A, C, G und T und mailten die daraus entstandene Textdatei an die US-Firma, die anhand dieser Vorlage Abermillionen kurzer DNA-Schnipsel herstellte, gefriertrocknete und per Post an die Forscher in Großbritannien zurückschickte.

Um zu überprüfen, ob ihr Verfahren funktioniert, machten sie sich gleich ans Wiederauslesen der Daten: Die Probe wurde verflüssigt, ein Teil abgezweigt und Heidelberger Kollegen zur Verfügung gestellt, die sie mit Hilfe von Standard-Gensequenziermaschinen entzifferten. Es entstand erneut eine Textdatei voller As, Cs, Gs und Ts, die sich mit dem Kodierungsverfahren in die Ausgangsdaten zurückübersetzen ließ. Der verbliebene Rest der Daten-DNA lässt sich wieder gefriertrocknen und aufheben.

Zwei Forscherteams gelingt der Durchbruch

Im Grunde genommen wundert es nicht, dass schon lange vor Goldman und Birney Forscher auf dieselbe Idee kamen. Schon seit Ende der 1990er Jahre experimentieren Wissenschaftler mit digitalen Bits in DNA-Form. Doch der Nachweis, dass sich das Verfahren auch im Großmaßstab anwenden lässt, gelang erst jetzt; nicht zuletzt auch dank einer Veröffentlichung von Wissenschaftlern um George Church von der Harvard University. Für ihre Studie übersetzten sie – zeitgleich mit den EBI-Forschern, aber ohne Wissen voneinander – gut 700 KB in eine künstliche Erbgutsequenz und dekodierten sie wieder.

Es wundert nicht, denn die Idee ist schlicht zu gut, um lange unentdeckt zu bleiben. DNA weist gegenüber herkömmlichen Speichermedien drei wesentliche Vorteile auf: Erstens lassen sich die Daten phänomenal dicht packen, wenn sie als Kette aus Erbsubstanz kodiert werden. Die EBI-Forscher berechneten, dass sich mit ihrem Verfahren in einem Gramm DNA etwas über zwei Petabyte, also rund 2,3 Millionen Gigabyte, unterbringen lassen. Oder, wie sie ebenfalls vorrechnen: 100 Millionen Stunden hoch aufgelöster Videos in einer Kaffeetasse voll DNA.

"Im Prinzip könnten wir heute damit anfangen, das gesamte Wissen der Welt in DNA niederzulegen"Nick Goldman, Ewan Birney

Zweitens ist die Technik in allen wesentlichen Belangen ein Abfallprodukt der Genforschung. Schon jetzt lassen sich alle erforderlichen Schritte mit standardisiertem Laborequipment ausführen. Und jeder Fortschritt, der bei der Herstellung oder dem Auslesen von Gensequenzen gemacht wird, fließt direkt in eine Verbesserung der DNA-Speichertechnologie. In einem nächsten Schritt will die Forschergruppe demonstrieren, wie sich eine Vielzahl von DNA-Speicherstückchen verwalten und verarbeiten lässt. Alle Technologie sei bereits vorhanden, erläutern sie: Mit einem handelsüblichen Probenroboter, wie er heutzutage auf den Tischen zahlloser Labors steht, lasse sich eine Datenmenge im Exabyte-Bereich (eine Milliarde Gigabyte) bewältigen.

Und drittens unterscheidet sich DNA als Speichermedium von sämtlichen anderen Verfahren zur langfristigen Speicherung dadurch, dass bereits der Beweis ihrer Dauerhaftigkeit vorliegt: Die Untersuchungen an Wollhaarmammuts aus dem sibirischen Permafrost oder gar an Neandertalerknochen zeigt, dass unter günstigen Bedingungen die Erbgutsequenz über mindestens 10 000 Jahre erhalten bleibt. An einem kühlen Ort in einem lichtundurchlässigen Behälter könnte sie locker die kommenden Generationen überdauern, zum Beispiel in einem Saatgutspeicher in Svalbard. Und solange sich die Menschheit ein wissenschaftliches Interesse an ihrem Erbgut bewahrt, werden die passenden Lesegeräte vorliegen.

Sichere Lagerung für 10 000 Jahre

"Im Prinzip könnten wir heute damit anfangen, das gesamte Wissen der Welt in DNA niederzulegen", meinen daher Goldman und Birney. Denn während überall auf der Welt bereits die Daten der letzten Generation rapide an Dauerhaftigkeit verlieren – gegenwärtige Speichermedien haben eine Lebenserwartung von wenigen Jahrzehnten, wenn überhaupt –, könnte die DNA-basierte Technologie gleich zwei Fliegen mit einer Klappe schlagen: An Forschungsinstituten wie dem Genfer CERN etwa fallen jährlich Datenmengen an, die sich nur noch in Terabyte messen lassen und die darüber hinaus auch noch zukünftigen Forschergenerationen zur Verfügung gestellt werden müssen. Mittel der Wahl sind in vielen Fällen noch immer Magnetbänder, die allerdings ebenfalls regelmäßig aufgefrischt werden müssen.

Vierfacher Überlapp |

Alle Daten legten die Forscher auf 114 Basenpaare langen Fragmenten ab (100 Basenpaare für die eigentlichen Daten, dunkelblau, 14 Basenpaare zur Identifikation, türkis).

Jedes Element wurde insgesamt viermal niedergeschrieben. Dazu wählten die Forscher aus der errechneten Basensequenz die Nukleotide von 0 bis 100 für das erste Fragment, für das nächste Fragment die Nukleotide von Position 25 bis 125, dann 50 bis 150 und so weiter.

Von Fragment zu Fragment änderte sich außerdem die Leserichtung der DNA (Pfeile) – ein weiterer Sicherheitsmechanismus, der systematische Fehler ausschließen soll.

Die DNA könnte sich also als ein ideales Archiv für die Zukunft entpuppen. Zumal, wie Goldman und Birney nachwiesen, ein vergleichsweise einfaches Kodierungsverfahren genügt, um die Schwächen heutiger Genverarbeitung zu kompensieren und die ursprünglichen Daten komplett fehlerfrei zu rekonstruieren.

Anders als beispielsweise die Arbeitsgruppe von Church richteten die EBI-Forscher ihr Augenmerk auf einen robusten Fehlerkorrekturmechanismus. Heutige DNA-Synthesemaschinen sind unter anderem nicht in der Lage, besonders lange Ketten herzustellen. Das Forscherteam zerlegte daher die ermittelte Abfolge in über 150 000 Schnipsel von je 114 Nukleotiden Länge. 100 davon stellten die eigentliche Nachricht dar, die verbleibenden 14 dienten als Index zur Identifikation des Fragments.

Eine weitere Sicherheitsmaßnahme bestand darin, jede Position im Kode auf jeweils vier Fragmenten gleichzeitig niederzulegen und jedes Fragment bei der Synthese mehr als eine Million Mal zu kopieren. Und schließlich wählten sie Abfolge der Basen so, dass niemals zwei gleiche aufeinander folgen würden, da solche Dopplungen mit größerer Häufigkeit zu Lesefehlern führen (siehe Kasten). Dank dieser Sicherheitsmerkmale gelang es ihnen, die ursprünglichen Daten mit einer Genauigkeit von 100 Prozent zu rekonstruieren.

Reine Kostenfrage

In seiner Veröffentlichung stellt das Forscherteam außerdem umfangreiche Berechnungen der Kosten einer solchen Speicherung an. Kurz gefasst: Der Löwenanteil der Ausgaben entfällt auf die Synthese der Erbgutmoleküle, doch selbst bei heutiger Technik würde sich das Verfahren lohnen, wenn eine Lagerzeit von mindestens 500 Jahren beabsichtigt ist. Denn ab diesem Punkt überschreiten die Kosten zur Instandhaltung herkömmlicher Speicherverfahren die Herstellungskosten der kodierten DNA-Stränge. Sinken die Synthesekosten jedoch um den Faktor 100 – das heißt noch einmal so viel wie im vergangenen Jahrzehnt –, sinkt auch der Speicherhorizont: Mit einer Technik, die vermutlich in zehn Jahren zur Verfügung steht, ist die DNA-Lagerung bereits ab 50 Jahren kosteneffizient.

Umrechentrick gegen Dopplungen

Um zu verhindern, dass in der DNA-Sequenz mehrmals das gleiche Nukleotid hintereinander auftaucht, griffen die Forscher zu einem Trick: Sie übersetzten den Binärkode nicht in ein Quaternärsystem zur Basis vier entsprechend den vier Nukleotiden A, C, G und T, sondern in ein Ternärsystem zur Basis drei (0, 1, 2). Beim Schreiben der Basensequenz betrachteten sie nun immer den jeweils zuletzt geschriebenen Buchstaben (Bsp.: C) und wiesen dann den Werten 0, 1, 2 die jeweils verbliebenen Nukleotide (Bsp.: A, G, T) zu. So vermieden sie Dopplungen. Würde man auf diese Sicherheitsmaßnahme verzichten, ließe sich die Information sogar noch dichter packen.

Doch diese Überlegungen zeigen auch: So eindrucksvoll die Kennzahlen der Technologie schon heute sind, sie kann – und wird – sich in den kommenden Jahren noch dramatisch verbessern, und das ohne Zutun der Entwickler, schlicht als Folge des ungebrochenen Interesses an Genetik. Nicht nur die Herstellung der Erbgutmoleküle, auch das heute noch Wochen dauernde Auslesen könnte sich beispielsweise dank Nanoporentechnologie drastisch beschleunigen. Fortschrittlichere Kodierungs- und Lesetechniken könnten es ermöglichen, selektiv die gewünschten DNA-Stränge herauszufiltern, was das Problem umgehen würde, immer erst die gesamte Probe sequenzieren zu müssen, um an einige darin enthaltene Datensätze zu gelangen.

Das von den Forschern gewählte Verfahren orientiert sich an der absoluten Untergrenze des Machbaren. Und bewusst entschieden sie sich für konservative Abschätzungen. Doch wer weiß? Sollten in Zukunft vielleicht nur ein paar tausend Kopien pro Einzelfragment genügen, wäre die Informationsdichte sofort auf Petabytes pro Milligramm gesunken.

Quellen
Links im Netz

[1] Goldman, Nick et al.:Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. In: Nature 10.1038/nature11875, 2013

Blog zum Thema von Ewan Birney

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!

Artikel zum Thema