Datenspeicher: Das Weltwissen in der DNA
Das Forschungsfeld begann als Scherz unter Kollegen. An einem Mittwoch im Februar 2011 diskutierte der Bioinformatiker Nick Goldman in einem Hotel in Hamburg mit einigen seiner Kollegen darüber, wie sich die Unmengen an Genomsequenzen und anderen Daten dieser Welt archivieren ließen. Goldman erinnert sich, dass die Wissenschaftler über die Grenzen der herkömmlichen Computertechnik so frustriert waren, dass sie über Sci-Fi-Alternativen herumalberten. »Wir dachten: Was hindert uns eigentlich daran, Daten mit Hilfe von DNA zu speichern?«
Dann verstummte das Gelächter. »Uns ging ein Licht auf«, berichtet Goldman, Gruppenleiter am European Bioinformatics Institute (EBI) in Hinxton, Großbritannien. Freilich wäre ein DNA-Speicher sehr langsam verglichen mit den Speicherchips auf Siliziumbasis, die Bits binnen Mikrosekunden lesen und schreiben. Daten in frisch hergestellten DNA-Strängen mit einer spezifischen Basenfolge zu kodieren, würde Stunden dauern – und diese Information mit einer Sequenzierungsmaschine wieder auszulesen, noch viele weitere Stunden. Doch passt in Form von DNA das gesamte menschliche Erbgut in eine für das bloße Auge unsichtbare Zelle. Was die Speicherdichte angeht, wäre DNA also Silizium um Größenordnungen überlegen: perfekt für die Langzeitarchivierung.
»Wir setzten uns mit Servietten und Kugelschreibern in die Bar und sammelten Ideen«, berichtet Goldman. »Was müsste man tun, um das zu realisieren?« Die größte Sorge der Forscher: Bei der Synthese und Sequenzierung von DNA tritt durchschnittlich in einem von 100 Nukleotiden ein Fehler auf. Damit wäre das Molekül für sehr große Datenmengen viel zu unverlässlich – es sei denn, man fände ein leistungsfähiges Fehlerkorrekturverfahren. Ließen sich Bits so in Basenpaare schreiben, dass Fehler erkannt und behoben werden? »Im Lauf eines Abends«, sagt Goldman, »wussten wir, dass es möglich ist.«
Der Wissenschaftler und sein Kollege Ewan Birney, ebenfalls vom EBI, nahmen die Idee mit in ihre Labors. Zwei Jahre später verkündeten sie dann den ersten Erfolg: Mit Hilfe von DNA hatten sie fünf Dateien abgespeichert, darunter Shakespeares Sonette und einen Ausschnitt aus der bekannten Rede »I have a dream« von Martin Luther King. Unabhängig davon hatten inzwischen auch der Biologe George Church und sein Team an der Harvard University in Cambridge, Massachusetts, unter Beweis gestellt, dass sich Daten in DNA speichern lassen. Doch mit 739 Kilobyte war der am EBI entwickelte DNA-Datenspeicher der bislang größte – bis Forscher von Microsoft und der University of Washington im Juli 2016 bekanntgaben, 200 Megabyte in DNA kodiert zu haben.
Der neue Rekord zeigt, dass das Interesse an DNA als Speichermedium weit über die Genomforschung hinausgeht: Die Welt steht vor einer Datenkrise. Zählt man alles, von astronomischen Bildern über Zeitschriftenartikel bis hin zu Youtube-Videos, zusammen, wird das digitale Archiv bis 2020 auf schätzungsweise 44 Billionen Gigabyte anwachsen, gegenüber 2013 eine Steigerung um das Zehnfache. Wollte man alle diese Daten für einen schnellen Zugriff – etwa den in Memorysticks verwendeten Flashspeicherchips – ablegen, würde das Archiv bis 2040 vermutlich 10- bis 100-mal mehr Silizium benötigen, als für Mikrochips verfügbar ist.
Deshalb setzt man bei der dauerhaften Archivierung selten genutzter Daten derzeit noch auf altmodische Magnetbänder. In dieses Medium lassen sich die Informationen zwar viel dichter packen als in Silizium, doch dauert das Auslesen deutlich länger. Allerdings wird auch dieser Ansatz untragbar, sagt David Markowitz von der US-Organisation Intelligence Advanced Research Projects Activity (IARPA) in Washington D. C. Ein Rechenzentrum mit einem Exabyte (einer Milliarde Gigabyte) an Daten auf Bandlaufwerken wäre durchaus vorstellbar, so der Wissenschaftler.
Nur würde der Bau und Betrieb eines solchen Zentrums über zehn Jahre eine Milliarde US-Dollar verschlingen sowie Hunderte von Megawatt an Energie. »Die molekulare Datenspeicherung hat das Potenzial, diese Kosten um bis zu drei Größenordnungen zu senken«, sagt Markowitz. Ließen sich Informationen so dicht packen wie in den Genen des Bakteriums Escherichia coli, würde etwa ein Kilogramm DNA ausreichen, um alle Daten dieser Welt zu speichern.
Es ist kompliziert
Dieses Potenzial auszuschöpfen, wird nicht einfach sein. Bevor DNA eine ernst zu nehmende Konkurrenz für herkömmliche Speichertechnologien werden kann, müssen Forscher eine Vielzahl von Aufgaben bewältigen – vom zuverlässigen Schreiben der Daten in die DNA über das gezielte Auslesen nur der Information, die ein Benutzer benötigt, bis hin zur kostengünstigen und schnellen Produktion von Nukleotidsträngen.
Inzwischen stellen sich jedoch immer mehr Forscher diesen Herausforderungen. Die Semiconductor Research Corporation (SRC) – eine Stiftung in Durham, North Carolina, die von einem Konsortium aus Chipherstellern getragen wird – setzt sich für die Forschung an DNA-Speichern ein. Goldman und Birney erhalten Gelder von der britischen Regierung, um an neuen Ansätzen zur DNA-Speicherung zu experimentieren. Die beiden wollen sogar ein Unternehmen gründen, in dem sie auf ihren Forschungen aufbauen. Und im April 2016 veranstalteten IARPA und SRC einen Workshop für Wissenschaftler und Industrieforscher, unter anderem von Firmen wie IBM, um die Forschung auf diesem Gebiet zu diskutieren.
»Seit zehn Jahren suchen wir nach Alternativen zu Silizium bei der Datenspeicherung«, sagt SRC-Direktor und leitender Wissenschaftler Victor Zhirnov. »Es ist sehr schwer zu ersetzen. Doch mit DNA, einem der bisher stärksten Kandidaten, könnte es gelingen.«
Der Künstler Joe Davis stellte 1988 gemeinsam mit Forschern aus Harvard erstmals die Einsen und Nullen digitaler Daten mit Hilfe der vier Basenpaare von DNA dar. Die DNA-Sequenz, die das Team in E. coli einfügte, speicherte lediglich 35 Bits. Angeordnet in einer 5×7-Matrix, in der die Einsen dunklen und die Nullen hellen Bildpunkten entsprachen, erzeugten die Forscher das Abbild einer altgermanischen Rune.
Heute ist Davis dem Labor von Church angeschlossen, das seit 2011 an DNA-Datenspeichern forscht. Die Harvard-Gruppe hoffte, dass diese Anwendung die hohen Kosten für die Synthese von DNA senken würde – ebenso wie die Genomforschung die Kosten für die Sequenzierung reduziert hatte. Im November 2011 führte Church die Experimente zum Nachweis der Machbarkeit zusammen mit Sri Kosuri, jetzt an der University of California in Los Angeles, und Genomforscher Yuan Gao von der Johns Hopkins University in Baltimore durch. Mit Hilfe vieler kurzer DNA-Stränge speicherte das Team eine 659-kB-Version eines Buchs, das Church mitverfasst hatte. Jeder Strang enthielt neben den eigentlichen Daten auch die Information, wie die einzelnen Teile nach dem Sequenzieren anzuordnen sind.
Eine binäre Null stellten die Forscher durch die Basen Adenin oder Cytosin dar, eine binäre Eins durch Guanin oder Thymin. Durch diese Flexibilität gelang es der Gruppe, gewisse Probleme beim Auslesen der erzeugten Sequenzen zu vermeiden – etwa in Bereichen mit viel Guanin und Cytosin, in sich wiederholenden Abschnitten oder an Stellen, die aneinanderbinden und die Stränge sich so zusammenfalten lassen. Eine Fehlerkorrektur im eigentlichen Sinn gab es nicht, stattdessen verließen sich die Wissenschaftler auf Redundanz, indem sie von jedem Strang zahlreiche Kopien anfertigten. Dementsprechend fanden Kosuri, Church und Gao nach der Sequenzierung der DNA-Stränge insgesamt 22 Fehler – zu viele für eine zuverlässige Datenspeicherung.
Fehlerkorrektur durch Redundanz
Für ihren 739-kB-Speicher nutzten Goldman, Birney und Kollegen am EBI ebenfalls haufenweise DNA-Stränge und archivierten ein Bild, einen ASCII-Text, Audiodateien sowie eine Publikation von Watson und Crick über die Doppelhelixstruktur der DNA als PDF-Version. Um sich wiederholende Basen und andere Fehlerquellen zu umgehen, verwendete das Team ein komplexeres Verfahren. So kodierte es die Daten beispielsweise nicht in Form von binären Einsen und Nullen, sondern in einem Ternärsystem – gebildet aus Kombinationen von Null, Eins und Zwei. Zudem änderte sich kontinuierlich, welche DNA-Base welche Zahl repräsentiert. Auf diese Weise ließen sich Abschnitte vermeiden, die Probleme beim Auslesen verursachen könnten. Und indem sich die DNA-Sequenzen jeweils überlappten (Stränge mit 100 Basen wurden schrittweise um 25 Basen versetzt), stellten die Wissenschaftler sicher, dass jeder 25-Basen-Abschnitt zur Fehlerkontrolle und für einen Abgleich untereinander in vierfacher Ausführung vorlag.
Die Gruppe verlor dennoch zwei der 25-Basen-Sequenzen – ironischerweise einen Teil des Papers von Watson und Crick. Trotzdem war Goldman nach diesen Ergebnissen davon überzeugt, dass sich DNA zur kostengünstigen, langfristigen Datenspeicherung eignet, die zudem wenig Energie verbraucht. Wie dauerhaft ein solcher Speicher sein kann, demonstrierte Goldman anhand eines 2013 veröffentlichten Fundes: Das Erbgut eines Pferdes konnte aus einem Knochen isoliert werden, der 700 000 Jahre im Permafrost überdauerte. »In Rechenzentren traut man einer Festplatte schon nach drei Jahren nicht mehr«, sagt der Wissenschaftler. »Und nach höchstens zehn Jahren traut auch niemand einem Magnetband mehr. Möchte man eine Kopie länger sichern, kommt DNA ins Spiel – sobald wir in der Lage sind, die Daten in DNA zu schreiben, könnte man diese in eine Höhle legen und vergessen, bis man sie wieder auslesen will.«
Diese Vorstellung beflügelte die Fantasie des Informatikers Luis Ceze von der University of Washington und von Karin Strauss von Microsoft Research in Redmond, Washington, seitdem sie 2013 bei einem Besuch im Vereinigten Königreich einen Vortrag von Goldman über seine Arbeiten hörten. »Wir waren begeistert, wie dicht, beständig und ausgereift DNA ist«, erinnert sich Strauss.
Nach ihrer Rückkehr nach Washington, berichtet Strauss, nahmen sie, Ceze und ihr Kollege Georg Seelig von der University of Washington sofort die Arbeit auf. Dabei konzentrierten sie sich vor allem auf ein weiteres großes Manko von DNA-Speichern, das schwerer wiegt als die Fehleranfälligkeit. Mit herkömmlichen Sequenzierungsverfahren ließen sich nur die gesamten gespeicherten Daten abrufen, nicht einzelne Teile davon – es müssten also immer alle DNA-Stränge ausgelesen werden, und das wäre extrem umständlich. Konventionelle Computerspeicher erlauben dagegen den gezielten Abruf genau jener Daten, die ein Benutzer gerade braucht.
Im April 2016 stellte das Team seine Lösung auf einer Konferenz in Atlanta vor. Zunächst entnehmen die Forscher kleine Proben aus ihrem DNA-Archiv. Anschließend machen sie sich die so genannte Polymerase-Kettenreaktion (PCR) zu Nutze, einerseits um die Stränge mit den gewünschten Daten zu lokalisieren und andererseits um mehr Kopien davon zu erstellen. Diese starke Zunahme an Kopien macht die Sequenzierung schneller, kostengünstiger und präziser als bisherige Ansätze. Die Wissenschaftler entwickelten auch ein alternatives Fehlerkorrekturverfahren, das der Gruppe zufolge eine doppelt so hohe Datendichte erlaube wie der EBI-Speicher und dabei genauso zuverlässig sei.
Härtetest mit Katzenbild
Zur Demonstration speicherten Strauss, Ceze und Seelig verschiedene Bilder mit einer Größe von insgesamt 151 kB, einige mit der EBI-Methode und einige mit ihrem neuen Ansatz. Dann riefen sie drei der Bilder – von einer Katze, dem Sydney Opera House und einem Affen – mit der EBI-ähnlichen Methode ab, wobei ein Lesefehler auftrat, den die Forscher manuell korrigierten. Das Foto vom Sydney Opera House lasen sie auch mit ihrer neuen Methode aus, ohne Fehler.
An der University of Illinois in Urbana-Champaign haben die Informatikerin Olgica Milenkovic und ihre Kollegen einen DNA-Speicher mit direktem Zugriff entwickelt, bei dem sich die gespeicherten Daten auch wieder überschreiben lassen. Ihre Methode speichert die Daten in langen DNA-Sequenzen, die an beiden Enden eine so genannte Speicheradresse aufweisen. Die Forscher verwenden diese Adressen, um mit Hilfe der PCR oder der biochemischen Methode CRISPR-Cas9 gezielt Stränge anzusprechen, zu vervielfältigen und umzuschreiben.
Die Adresssequenzen müssen dabei so gewählt werden, dass sie das Auslesen nicht behindern und gleichzeitig genügend verschieden voneinander sind, um beim Auftreten eines Fehlers nicht vertauscht zu werden. Darüber hinaus gilt es auch andere Probleme zu umgehen, etwa dass sich Schlaufen im Molekül bilden, weil zwei eigentlich nicht zusammengehörende Abschnitte zueinanderpassende Basenabfolgen haben. All dies erfordert ausführliche Berechnungen. »Anfangs setzten wir Computer für die Suche ein. Denn etwas zu finden, was über alle diese Eigenschaften verfügt, war wirklich schwierig«, sagt Milenkovic. Inzwischen hat ihr Team diesen arbeitsintensiven Prozess durch mathematische Formeln ersetzt, mit denen sich deutlich schneller ein Kodierungsschema entwickeln lässt.
Weitere Hürden auf dem Weg zum DNA-Datenspeicher sind Umfang und Geschwindigkeit der Molekülsynthese, schildert Kosuri und gibt zu, dass er aus diesem Grund nicht sehr zuversichtlich war, was diese Idee angeht. Während der ersten Experimente in Harvard, erinnert er sich, »hatten wir 700 kB. Selbst bei einer 1000-fachen Steigerung wäre man gerade einmal bei 700 MB, also einer CD.« Um wirklich etwas zum weltweiten Problem der Datenarchivierung beizutragen, müsste man mindestens in der Größenordnung von Petabyte liegen. »Das ist nicht unmöglich«, so Kosuri, »aber die Leute müssen sich im Klaren darüber sein, dass dies eine millionenfache Steigerung bedeutet.«
Das wird nicht einfach sein, stimmt Markowitz zu. »Die vorherrschende Herstellungsmethode ist ein fast 30 Jahre alter chemischer Prozess, der 400 Sekunden braucht, um eine einzelne Base hinzuzufügen«, sagt er. Sollte dies der Ansatz der Wahl bleiben, fügt der Forscher hinzu, müssten Milliarden verschiedener DNA-Stränge parallel erzeugt werden, damit das Schreiben schnell genug vonstattengeht. Bisher liegt der Rekord für die gleichzeitige Produktion bei Zehntausenden von Strängen.
»Sechs Größenordnungen sind keine große Sache«
Ein weiterer, eng damit verbundener Aspekt sind die Kosten für die DNA-Synthese. 98 Prozent von den 12 660 US-Dollar für das EBI-Experiment entfielen auf diesen Posten. Die Sequenzierung machte nur zwei Prozent aus – dank einer zweimillionenfachen Kostenreduktion seit Abschluss des Human Genome Project im Jahr 2003. Trotz dieses Beispiels ist Kosuri nicht davon überzeugt, dass wirtschaftliche Faktoren für einen ähnlichen Verlauf bei der DNA-Synthese sorgen können. »Dass es einen Markt dafür gibt, sieben Milliarden Menschen zu sequenzieren, kann man sich leicht vorstellen – aber das Erbgut von sieben Milliarden Menschen nachzubauen, dafür besteht kein Bedarf«, so der Forscher.
Durch das Human Genome Project-Write (HGP-Write) – ein Projekt, das Church und andere Wissenschaftler im Juni 2016 beantragten – ließen sich die Kosten vermutlich etwas senken, räumt er ein. Falls gefördert, zielt das Programm darauf ab, ein vollständiges menschliches Genom künstlich herzustellen: 23 Chromosomenpaare mit 3,2 Milliarden Nukleotiden. Doch selbst wenn HGP-Write erfolgreich ist, gibt Kosuri zu bedenken, enthält ein menschliches Genom nur 0,75 GB an Information. Die Fertigung praxistauglicher Datenspeicher wäre eine deutlich größere Herausforderung. Dennoch zeigt sich Zhirnov optimistisch, dass die Kosten für die DNA-Synthese um Größenordnungen sinken könnten. »Es gibt keine wesentlichen Gründe, warum der Preis derzeit so hoch ist«, sagt er.
Im April 2016 unternahm Microsoft Research einen ersten Schritt und bestellte zehn Millionen DNA-Stränge von Twist Bioscience, einem Start-up-Unternehmen in San Francisco, Kalifornien. Laut Strauss und ihren Kollegen nutzten sie die Stränge, um einen Speicher nach ihrem neuen Ansatz auf 0,2 GB zu erweitern. Einzelheiten dazu wurden zwar nicht veröffentlicht, doch soll der Speicher angeblich die Allgemeine Erklärung der Menschenrechte in mehr als 100 Sprachen enthalten, die Top-100-Bücher der digitalen Bibliothek »Projekt Gutenberg« sowie eine Saatgut-Datenbank. Obwohl dieser Fortschritt bezüglich der DNA-Synthese nicht an die Ziele von HGP-Write heranreicht, betont Strauss dennoch die große Bedeutung des 250-fachen Anstiegs in der Speicherkapazität.
»Es war an Zeit, auch mit größeren DNA-Mengen zu hantieren, um einen größeren Maßstab zu erreichen und zu sehen, wo das Verfahren fehlschlägt«, sagt sie. »Tatsächlich hakt es noch an verschiedenen Stellen – und wir lernen viel daraus.«
Dies sei nur ein Vorgeschmack auf die Zukunft, meint Goldman zuversichtlich. »Wir gehen davon aus, dass wir eine 100 000-fache Steigerung brauchen, um die Technologie in Schwung zu bringen – und wir denken, das ist machbar«, sagt er. »Zwar ist der bisherige Erfolg keine Garantie, aber es gibt jedes Jahr oder alle zwei Jahre neue Leseverfahren. Und sechs Größenordnungen sind keine große Sache in der Genomforschung. Wir müssen uns nur ein wenig gedulden.«
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.