Meinels Web-Tutorial: Wie Töne in den Computer kommen
Seit seiner Erfindung verändert das Web kontinuierlich unsere Lebenswelt, ja revolutioniert diese. Dabei ist es eigentlich nur ein großer, verlinkter Medienspeicher – der größte der Welt. Neben vielen textbasierten Informationen und Bilddaten enthält das Web inzwischen auch das umfassendste Repositorium von Musik und Klängen. Musikstücke lassen sich über das Internet hoch- und runterladen, Streaming-Dienste machen uns überall jeden im Web befindlichen Song zugänglich. Musik aus dem »Äther« zu holen, ist für viele zu einer Selbstverständlichkeit geworden. Tatsächlich ist es das Ergebnis hochkomplexer, im Hintergrund ablaufender Codierungs- und Übertragungsmechanismen.
Damit Musik und analoge Klänge von einem Computer »verstanden« und übertragen werden können, müssen diese genau wie Texte oder Bilder zunächst in binären Mustern codiert werden, denn Rechner verstehen nur Nullen und Einsen. Es braucht deshalb Techniken, mit denen man die analogen Klänge in eine diskrete Abfolge von binären Codes transformieren kann. Im Unterschied zu statischen Daten wie Texten oder Bildern muss bei der Codierung von Musik auch der zeitliche Verlauf der einzelnen Töne in der Codierung exakt berücksichtigt werden. Audiodaten sind dynamische Daten. Trotz dieses Unterschieds bedient man sich auch bei der Codierung von Tönen eines ganz ähnlichen Tricks wie bei der Bildcodierung. Klänge werden in ein homogenes Zeit- und Werteraster mit diskreten Werten transformiert. Und wie bei der Codierung von Bildern wird bei der Abbildung von Klängen im digitalen Raum die Realität reduziert. Zeit ist ein kontinuierlicher Prozess und keine Abfolge aus »Zeitatomen«, aber genau diese Reduktion ermöglicht es, für jedes dieser Zeitatome einen eindeutigen Zeit- und Ton-Wert zu bestimmen und zu codieren. Natürlich müssen dabei die »Zeitatome« so dicht gewählt werden, dass diese Diskretisierung für das menschliche Ohr nicht wahrnehmbar ist.
Bei der Codierung von Klängen geht man mehrstufig vor. Zunächst gilt es, die Eigenschaften von Schallwellen im physikalischen Raum zu verstehen. Töne ergeben sich aus wellenförmigen Verdichtungen und Verdünnungen von Luftpartikeln, die sich kontinuierlich ausbreiten, so ähnlich wie Wellenberge und -täler im Meer. In einem Lautsprecher werden diese Schallwellen dadurch erzeugt, dass eine Membran durch Schwingung die Luft vor sich staut und dehnt. Diese Stauungs- und Dehnungsmuster breiten sich im Raum aus und werden von uns als Klänge wahrgenommen. Der erste Schritt bei der Digitalisierung von Musik besteht also darin, diese Stauungs- und Dehnungsmuster »abzutasten«; das wird als Sampling bezeichnet. Beim Sampling kommt der erste Teil des Tricks zum Einsatz: Man definiert homogene Zeitintervalle von wenigen Millisekunden und misst den Zeitwert des kontinuierlichen Klangsignals nur an den Grenzpunkten diese Intervalle. Das Zeitkontinuum wird so in Zeitatome eingeteilt. Aus einem Strom werden Punkte einer Kette mit einer bestimmten Abfolge.
Die Tonhöhen sind dabei zunächst weiterhin kontinuierlich und müssen dann in einem zweiten Schritt auf einer geeigneten Skala der Tonwerte diskreten Werten zugeordnet werden. Ein weiteres Diskretisierungsraster wird auf das kontinuierliche Signal gelegt, und die Tonhöhen werden den dort vorgegebenen Werten angeglichen. Man bezeichnet das als Quantisierung.
Die roten horizontalen Rasterlinien stellen die vorgegebenen Höhenwerte dar. Bei der Quantisierung wird die Tonhöhe auf den nächstliegenden oberen beziehungsweise unteren Höhenwert gerundet. In der Grafik zeigt sich das durch die vertikale Verschiebung der orangen (realen) kontinuierlichen Tonhöhenwerte in jedem Zeitpunkt hin zu den diskreten roten Höhenwerten. Auch hier wird wieder deutlich, dass Audiocodierungen immer nur eine Annäherung – bei sehr feinen Diskretisierungsrastern auch extrem gute Annäherungen – an die kontinuierlichen Töne analoger Musik liefern können.
Die abgetasteten Zeitatome, die die eindeutige Tonhöheninformation beinhalten, können nun in (binäre) Zahlen umgewandelt und entsprechend codiert werden.
Bei der Umwandlung von kontinuierlichen Signalen in Zeit-Klang-Atome stellt sich genauso wie bei Bildcodierung über Pixel die Frage, wie genau die Intervalle gesetzt werden müssen, um den realen Klang so gut wie möglich digital abzubilden. Je kleiner die Zeit- und Tonhöhenintervalle sind, desto genauer werden die Töne digital abgebildet, gleichzeitig aber werden auch mehr Datenpunkte generiert, die codiert und gegebenenfalls über das Internet übertragen werden müssen. Auch hier stellt sich also die Frage nach dem Trade-off zwischen Klangqualität und Speicherplatz. Dank verschiedener Verfahren wie beispielsweise der »Pulsecode Modulation« (PCM) gelingt es, die Intervalle so zu optimieren, dass Speicheraufwand und Tonqualität in guten Einklang gebracht werden.
Neben der Klangoptimierung ist die Datenkompression ein wichtiges Ziel. Bei der Bildcodierung nutzt man redundante Werte, die zusammengefasst werden, und Farbschwellenwerte, die es ermöglichen, größere einheitliche Farbflächen zu schaffen, um Informationen zu reduzieren. Bei der Audiocodierung setzt man darüber hinaus auf Erkenntnisse zur menschlichen Physiologie. Man kann messen, welche Töne und Tonhöhen überhaupt vom menschlichen Gehör wahrgenommen werden können. So kann das menschliche Gehör beispielsweise nur Töne wahrnehmen, die nicht sehr hoch oder sehr tief sind. Liegen die Tonhöhen außerhalb des menschlichen Hörbereichs, werden sie zur Informationsreduktion einfach gelöscht. Auch sind Menschen nicht in der Lage, bei Überlagerung neben lauten Tönen die leisen wahrzunehmen. Diese Eigenschaft des menschlichen Gehörs kann ebenfalls zur Informationsreduktion genutzt werden, ohne dabei die wahrgenommene Klangqualität zu beeinflussen.
Die so erstellten digitalen Audiodaten und -dateien werden in Datencontainern – Dateien mit verschiedenen Informationsformaten – ausgegeben, die unter anderem auch verschiedene Komprimierungsformate enthalten können. Zu den bekanntesten dieser Formate zählen das »WAV«-Format, das sämtliche Audioinformationen unreduziert speichert, und das »MP3«-Format, das Klänge für das menschliche Ohr (kaum) wahrnehmbar verlustbehaftet komprimiert.
Schreiben Sie uns!
Beitrag schreiben