Studiotechnik: Die Festplatte als Bandmaschine
Computersoft- und -hardware ersetzen mehr und mehr das kostspielige Equipment der Aufnahmestudios. Hinter den bunten Benutzungsoberflächen wirken überraschend komplexe Algorithmen.
Vor 22 Jahren geriet die Welt der Musikliebhaber aus den Fugen: Die Unternehmen Sony und Philips präsentierten die gemeinsam entwickelte Compact Disk. Die dünne Scheibe aus Kunststoff und Aluminium schickte sich rasch an, die Schallplatte zu verdrängen. Ein Laser ersetzte die Abtastnadel, mikroskopische Vertiefungen im Kunststoff das Rillenmuster. Damit war nicht nur die Ära des Grammofons endgültig zu Ende: Die Digitalisierung der Musikindustrie hatte begonnen.
Sammler kam die Umstellung teuer zu stehen, war doch der in jahrelanger Leidenschaft gefüllte Phonoschrank samt Plattenspieler bald eine Antiquität. Aber auch Tonstudios mussten kostspielig auf die digitale Technik umrüsten. Sie benötigten Analog-Digital-Wandler (A/D), die Schall bei der Aufnahme in einen Strom von Bits und Bytes umsetzten, und das Pendant für den umgekehrten Weg, D/A-Wandler. Hinzu kamen spezielle Bandmaschinen, um den binären Datenfluss zu speichern, mit digitalen Signalprozessoren (DSP) ausgestattete Effektgeräte und Filter für die Klangbearbeitung.
Vor einigen Jahren begann eine neue Phase dieser Entwicklung: Computer ermöglichten es, mit spezieller Hard- und Software aufgerüstet, kostspielige digitale Spezialsysteme zu ersetzen. Im Profistudio dienen sie seit rund fünf Jahren beispielsweise zum Schnitt und Arrangement von Aufnahmen, als Steuerzentrale für digitale Mischpulte und Harddiskrekorder (also Aufnahmegeräte, die auf Festplatte statt Magnetband speichern) sowie zur Endabmischung, dem "Mastering".
Steile Filter, flacher Klang
Eine schnelle CPU, viel Arbeitsspeicher und eine große Festplatte sind die Grundvoraussetzung, denn digitalisierter Klang erzeugt große Dateien. Analog-Digital-Wandler und ihre Pendants ergänzen die Hardware (für den Hobbybereich reichen die entsprechenden Komponenten der Soundkarten).
Das zentrale Programm, das alle Hard- und Software steuert, ist der Audio-Sequenzer. Dessen Funktion und grafische Anmutung ähneln einer Bandmaschine: Jedes Instrument erhält eine eigene Spur (siehe Bild Seite 80). Bei synthetischen Klangerzeugern speichert diese alle Steuerbefehle im zeitlichen Ablauf, beispielsweise vereinfacht "Achtung Klavierspur: Ton C an, volle Lautstärke, Ton C aus". Audiospuren entsprechen den Aufnahmen "echter" Instrumente. Drei der weltweit wichtigsten Audio-Sequenzer kommen aus deutschen Landen: "Samplitude", ein Produkt im Vertrieb der Berliner Magix AG, "Logic Audio" von Emagic in Rellingen sowie "Cubase" aus der Hamburger Software-Schmiede Steinberg.
Wer als Anwender mit Audio-Workstations arbeitet, dem bleibt die Komplexität der Technik hinter grafischen Benutzungsoberflächen verborgen. Die Probleme beginnen bereits mit dem Digitalisieren eines Tones, beispielsweise eines via Mikrofon dem Rechner zugeführten Gesangsparts. Die in Amplitude und Zeit kontinuierlichen Schallschwingungen müssen in hinreichend kurzen Zeitabständen gemessen und als binäre Zahl gespeichert werden. Was auch immer in den folgenden Prozessen mit dem Schallsignal geschehen soll, reduziert sich somit auf eine numerische Operation an einzelnen Datenworten: Um zum Beispiel ein Signal zu glätten – was gleichbedeutend mit einem Herausfiltern hoher Frequenzen ist –, ersetzt der Computer jeden Abtastwert durch eine Mittelung des ursprünglichen Datums mit den Werten des vorherigen und des folgenden.
Obwohl das kontinuierliche Signal durch diskrete Werte repräsentiert wird, darf keine hörbare Information verloren gehen. Für die CD hatten Sony und Philips deshalb folgendes Format festgelegt: Zur Angabe der Amplitude stehen in Stereo 16 Bit zur Verfügung, also 65636 ganze Zahlen für den gesamten Aufnahmebereich zwischen der minimalen und der maximalen Lautstärke; die zeitliche Abtastung erfolgt mit 44,1 Kilohertz, 44100-mal pro Sekunde.
Die Amplitudenauflösung orientierte sich an der Technik von 1981 – ein Datenwort war normalerweise 16 Bit groß – , der zweite Wert folgte aus dem Nyquist-Theorem: Die Rate der Abtastung (fachlich Sampling) muss mindestens doppelt so hoch sein wie die höchste im Spektrum des analogen Signals auftretende Frequenz. Eine höhere würde sonst fälschlicherweise in tiefere Bereiche des Spektrums gespiegelt und den Klang bei der Wiedergabe stören (siehe Grafik auf der nächsten Seite). Das CD-Format berücksichtigt die obere Hörgrenze des Menschen von etwa 20 Kilohertz, eine Rate von 44,1 Kilohertz scheint mehr als ausreichend. Doch höher frequente Signalanteile kommen in natürlichen Klängen durchaus vor. Auch wenn wir sie normalerweise nicht hören, müssen sie vor dem Sampling durch Filter entfernt werden.
Die aber verändern die Phasenlage des Signals, verschieben also die Komponenten seines Spektrums gegeneinander. Dieser Effekt ist umso größer, je steiler ein Filter arbeitet, und das ist beim CD-Standard der Fall: Während am Ende des Hörbereichs von 20 Kilohertz noch alle Signalanteile durch den Wandler kommen müssen, sollten bei 22,05 Kilohertz (der halben Abtastfrequenz) alle höheren Frequenzen eliminiert sein. Die resultierenden Phasenverschiebungen lassen die Musik mitunter etwas verwaschen klingen. Aus diesem Grund arbeitet modernes Studioequipment – und auch das neue Format der Audio-DVD – mit 96 Kilohertz. Damit hat ein Filter sozusagen nach oben hin Luft – erst ab 48 Kilohertz muss alles Weitere entfernt sein. Dementsprechend lässt er sich flacher auslegen, und Phasenänderungen werden minimiert.
Auch hinsichtlich der Pegeldarstellung geht der Trend zur höheren Auflösung: Anspruchsvolle A/D-Wandler bieten mittlerweile bis 24 Bit statt nur 16. Ein solches Datenwort vermag nun schon 16777216 statt 65636 Werte darzustellen. In beiden Fällen definiert der Wert 0 die maximale Lautstärke, im ersten Fall beträgt sie 96 Dezibel, im zweiten 144 Dezibel (siehe Glossar unten). Anders ausgedrückt: Jedes Bit mehr erweitert die Auflösung um sechs Dezibel.
Das verschafft Reserven. Ein Streichquartett bereitet mit 16 Bit noch keine Probleme. Dessen Dynamik, also der Abstand zwischen leisester und lautester Stelle, umfasst etwa 75 Dezibel. Anders bei einem Sinfoniekonzert: Eine Aufnahmedynamik von 95 Dezibel lässt kaum Luft für die üblichen Sicherheitspuffer zum Schutz vor Übersteuerungen.
Besonders deutlich zeigen sich die Vorteile von 24 Bit aber bei sehr leisen Passagen eines Musikstücks, beispielsweise bei einer Pianissimo-Stelle in einem Musikstück. Diese stellt sich bei 16 Bit im Wertebereich zwischen etwa 16 und 256 dar, bei 24 Bit zwischen 4096 und 65536 – das Raster gerade am unteren Ende der Lautstärkeskala wird somit sehr viel feiner und damit genauer. Das reduziert zudem die so genannte Quantisierungsverzerrung: Wenn der A/D-Wandler beim Abtasten zwischen zwei ganzen Zahlen entscheiden muss, zum Beispiel zwischen 124 und 125, macht er einen winzigen Fehler, wenn das Signal in Wirklichkeit dazwischen liegt. Den sollen sehr geschulte Ohren als feines Rauschen hören können.
Hersteller professioneller Produktionssysteme empfehlen deshalb mittlerweile, die gesamte Verarbeitung mit einer 24-Bit-Auflösung durchzuführen, denn jeder Zwischenschritt mit kleineren Datenworten mindert wieder die Klangqualität. Außerdem setzen neuere Programme die Daten in das 32-Bit-Fließkomma-Format um, das eine Bearbeitung mit einem Dynamikumfang von 150 Dezibel erlaubt.
Liegen die Amplituden erst einmal in digitaler Form vor, in welcher Auflösung auch immer, offerieren die Computerstudios vielfältige Möglichkeiten zur Bearbeitung. Schon beim Schneiden und Kleben der virtuellen Tonspuren offenbaren sich die Stärken. Ohne die Originaldaten anzugreifen, lassen sich Ausschnitte markieren und zu einem Ganzen verschmelzen.
Die Vielseitigkeit digitaler Technik wird aber nirgends deutlicher als bei der Arbeit mit Effekten. Als Beispiel diene der in der Popmusik wichtige Hall. Reflexionen an den Wänden eines Raumes verändern den Klang, verwaschen ihn auch je nach Rauigkeit der Wände. Manch ein Fan wäre wohl enttäuscht, würde er seinen umjubelten Popstar ohne Hall vernehmen: Der Effekt verleiht Fülle. Andererseits kann er im Übermaß auch den Klang verschmieren.
Die nur digital zufrieden stellend zu simulierende Wirkung großer Räume entsteht aus der Überlagerung einer Vielzahl verzögerter Signale zusammen: Für jede Sekunde Nachklang werden bei 44,1 Kilohertz zeitlicher Auflösung für eine exakte Nachbildung des Raumeindrucks auch 44100 verzögerte Signale benötigt. Digitale Hallgeräte sind damit überfordert. Sie erzeugen durch Rückkopplungen lediglich einen synthetisch wirkenden Effekt. Moderne Spezialsoftware hingegen verrechnet die diskreten Pegelwerte des Signals mit den Messwerten einer "Hallantwort" auf ein impulsartiges Ereignis und erreicht so einen natürlich klingenden Hall.
Noch setzen professionelle Studios derartige Software selten für Effekte ein, denn die Rechner erreichen erst seit kurzem die Leistungsfähigkeit spezieller Hardware. Die Entwicklung ist aber in vollem Gange. Zudem öffnet sich dem Computer mit wachsender Taktzahl das Feld der Livemusik. Denn all das über Arrangement und Effekte Gesagte gilt derzeit nur für die Aufnahme. Die Echtzeit-Bearbeitung ist bei vielen Algorithmen noch zu aufwendig. Auf der Bühne aber will der Musiker kreativ mit seinem Instrumentarium umgehen, und das kostet in der digitalen Audiowelt Rechenleistung. Doch die scheint nur eine Frage schnellerer Prozessoren und besserer Algorithmen zu sein.
Glossar
- In Dezibel wird der Pegel I eines Signals relativ zu eine Referenz I0 gemessen: S = 10 log (I/I0). So bezieht man beispielsweise die Lautstärke von Schall gemeinhin auf die Hörschwelle des menschlichen Ohres.
- Der minimale akustische Schallpegel beträgt also null Dezibel. Bei der Aufnahme eines Musikstücks hingegen entspricht I0 nach Konvention der Passage maximaler Lautstärke, null Dezibel misst dort der maximale Aufnahmepegel.
Aus: Spektrum der Wissenschaft 3 / 2003, Seite 78
© Spektrum der Wissenschaft Verlagsgesellschaft mbH
Schreiben Sie uns!
Beitrag schreiben