Big Data: YouTube, Twitter? Gensequenzen!
Noch verwendet man den Ausdruck "astronomisch" für wahrhaft gigantische Dinge, in Zukunft könnte sich die Bezeichnung "genomisch" durchsetzen, sagt Michael Schatz vom Simons Center for Quantitative Biology am Cold Spring Harbor Laboratory (CSHL) – sicher nicht ganz ernst gemeint. Doch die Berechnungen seines Teams zeigen, dass uns in naher Zukunft die Technik der Genanalyse eine Datenmenge beschert, die die sämtlicher anderen Datengiganten übertreffen wird – die Beschleunigerphysik genauso wie die Astronomie und auch den jetzigen Rekordhalter YouTube.
Mit jährlich gesammelten 100 Petabyte läuft die Videoplattform heute noch allen anderen Diensten den Rang ab. In ihrer Studie extrapolierten Schatz und sein Team nun bis 2025, wie viel zusätzlicher Speicherbedarf pro Jahr in der Astronomie, in der Genetik sowie bei YouTube und Twitter anfallen wird.
Jährliche Versiebenfachung
Während sich YouTube und die Astronomie mit immerhin einem bis zwei Exabyte pro Jahr herumplagen werden müssen, dürfte die Menge gespeicherter genetischer Informationen bei mindestens zwei Exabyte liegen – und möglicherweise gar bei 40. Ein Exabyte sind eine Million Terabyte, also ungefähr der Inhalt von einer Million Festplatten. Der Grund dafür ist das exorbitante Wachstum der Genetik: Die Menge der von ihr generierten Information steigt derzeit pro Jahr um das Siebenfache an.
Die große Masse besteht aus den DNA-Sequenzen von Patienten. Wenn der Trend einigermaßen konstant bleibt, könnten nach Schätzung von Schatz und Kollegen bis ins Jahr 2025 insgesamt 100 Millionen bis zwei Milliarden Erbgutsequenzen vorliegen. Gerade in der Krebsmedizin kann es von Vorteil sein, die DNA mehrerer Zellen auszulesen, so dass jeder Untersuchte gleich mehrfach zu Buche schlägt. Im Extremfall fallen irgenwann mehr DNA-Sequenzen an, als Menschen auf der Erde leben.
Natürlich ist es nicht immer notwendig, die gesammelten Rohdaten auf Dauer abzuspeichern. Die Astronomie etwa wird im Jahr 2025 noch deutlich mehr Daten generieren als die Genetik, aber nur einen Bruchteil davon abspeichern. Laut den Wissenschaftlern gilt das jedoch nur eingeschränkt für die Genetik, denn je mehr Daten zur Verfügung stehen, umso besser könnten Muster hervortreten, die neue Erkenntnisse über Krankheiten liefern. Man wisse eben im Voraus gar nicht, wo man guten Gewissens löschen könne. Ihre Studie soll darum nun den Fachkollegen einen Ansporn liefern, sich Gedanken um eine geeignete Infrastruktur zu machen. Und wer weiß, vielleicht stellt sich ja heraus, dass die Lösung in der DNA selbst liegt – deren gewaltige Speicherdichte haben Forscher bereits technisch nutzbar gemacht.
Schreiben Sie uns!
Beitrag schreiben