Auflösung und Datenformat

Datenformate

In Abhängigkeit vom vorliegenden Mixdown ist es häufig nötig, das Audiomaterial erst in ein geeignetes Format umzuwandeln. Um die höchstmögliche Wortbreite (Detailgenauigkeit einer digitalen Aufzeichnung) während des Masterns nutzen zu können, empfiehlt es sich für den Produzenten/Musiker, den Mix mit der höchstmöglichen Bitzahl zu rendern, damit dieser mit so wenig wie möglichen Verlusten in den  Masteringprozess eingebunden werden kann. Rechnerintern wird 32Bit oder 64Bit FP (FP = floating point = Fließkommastelle) verwendet. Die meisten DAWs sind in der Lage, dieses Format als WAV zu exportieren. Das sollte man also vorzugsweise auch nutzen. Weiterhin üblich sind 24bit Wortbreite für den Export einer WAV-Datei. Dies wird spätestens nach dem Einlesen in die DAW und unter Einbeziehung von VSTs in den Signalfluss wieder in mindestens 32Bit FP aufgelöst.

Auflösung (Wortbreite)

Theoretische Abhandlungen mit entsprechenden physikalischen Hintergründen, dem Für und Wider aus der Praxis, ob/wo 32Bit FP sinnvoll sind oder ob 24Bit bereits ausreichen, gibt es im Web zu Hauf. Dies wollen wir also nicht wiederholend vertiefen. Im Vordergrund steht nach wie vor die praktische Anwendung bestimmter Schritte und das Grundwissen, um die optimalen Bedingungen für das Mastern vorzubereiten.

Ein absoluter Fehler wäre es jedenfalls, den Mixdown in 16Bit zu exportieren, denn hier läge bereits ein erheblicher und vor allem hörbarer Datenverlust vor. 16Bit sind rechnerisch nur in der Lage 96dB in ausreichend feine Pegelstufen aufzulösen, so dass die Quantisierung, also das ‚Zerschneiden‘ des analogen in ein digitales Signal, nicht hörbar wahrgenommen wird. Natürlich ist dies noch von der Sampling- oder Abtastfrequenz abhängig, aber dazu später. Geht man aber davon aus, dass das hörbare Signal aufgrund der Höhe seiner Peaks (Pegelspitzen) nur im vollen Aussteuerungsfall diesen Raum nutzt, bedeutet es auch, dass leisere Signale natürlich weniger ‚Stufen‘ zur Verfügung haben, in die sie aufgelöst werden können. Bei einem kräftigen Signal mit einem ‚gut durchmischten‘ Spektrum fällt diese grobere Rasterung kaum oder gar nicht auf – in Folge der Überdeckung.

Kritisch wird es jedoch bei kleinsten Signalpegeln, wie sie in kurzen Zäsuren innerhalb eines Titels vorkommen, wo auf Gründen des natürlichen Raum(nach)klanges nicht auf digital 0 geschaltet wird sowie bei Fade-In/Outs. An diesen Stellen kann ein gesundes Ohr durchaus das ‚Klappern‘ der niedrigsten Bits wahrnehmen. Um dies zu vermeiden, gibt es einen technischen ‚Trick‘, welcher eigentlich erst ganz am Ende der Masteringkette zum Einsatz kommt; das Dithering. Dieses ‚maskiert‘ das regelmäßige ‚Klappern‘ dieser Bits,  so dass für das Ohr das wesentlich angenehmere Rauschen an dessen Stelle tritt. Im Kapitel Dithering gehen wir darauf noch einmal detaillierter ein. Hier soll nur klar werden, dass man ein 16Bit Signal zwar umgewandelt bekommt, aber dies nur auf Kosten dieser künstlich herbeigeführten ‚Rundungsfehler‚. Nicht zu vergessen, dieses Ditherrauschen ist permanent vorhanden, wenn auch meist überdeckt durch das Nutzsignal. Fazit, immer die höchstmögliche Wortbreite (32Bit FP / 24Bit) für den Export verwenden.

Ein weiterer Parameter der Auflösung des Audiomaterials ist die Abtastrate oder Samplerate. Diese liegt üblicherweise bei 44,1kHz, kann in Abhängigkeit vom System und Ziel des Masterings auch deutlich höher liegen. Niedriger macht heutzutage keinen wirklichen Sinn mehr, früher war eine niedrigere Abtastrate aufgrund der technischen Entwicklung bzw. des ‚Sparens‘ an Arbeitsspeicher in z.B. Samplern gang und gäbe. Der Mindestwert von 44,1kHz ergibt sich aus der Überlegung, dass die Abtastrate um etwas über dem Doppelten der höchsten abzutastenden Signalfrequenz liegen muß. Das gesunde menschliche Ohr hört Frequenzen zwischen 20Hz und 20kHz, darüber und darunter fällt der Reiz der Hörnerven unter die psychologische Wahrnehmungsgrenze. Geht man also von 20kHz maximaler Eingangs-Signalfrequenz aus, so sollte die minimale Abtastfrequenz bei 40kHz liegen.

Nun will man aber auch die hohen Frequenzen von 20kHz tatsächlich noch im Audiomaterial mittransportieren und im Spezialfall sogar die Vielfachen dieser Frequenz. Es hat sich aber schnell gezeigt, dass ein unangenehmes Phänomen auftritt, wenn Frequenzen des Eingangssignales über der Hälfte der Abtastfrequenz liegen. Dies äußert sich dadurch, dass wie beim Rad im Film, welches uns vorgaukelt sich rückwärts drehen, hier eine virtuelle ‚Ereignisfrequenz‘, ein ‚Alias‘ aus Überlagerungspunkten zwischen der Abtast- und eben dieser Frequenz über der halben Abtastrate entsteht. Diese ist, grob ausgedrückt, die Differenzfrequenz aus beiden und wird bei entsprechender Phasenlage höher oder tiefer sein. Demzufolge ist sie bei ständig ‚vorbeistreichenden‘ und dauerhaften Frequenzen,  um die Hälfte der Abtastfrequenz liegend, oft bis ständig zu hören.

Um dem Problem des sogenannten Aliasings Herr zu werden, liegt die tatsächliche Mindestabtastrate etliche Kilohertz höher; Standard sind eben 44,1kHz. Dies hat weiterhin folgenden Grund.  Um Frequenzen, die in ihrem Grundton direkt oberhalb 20kHz liegen und deren doppelte Frequenz mit der Samplerate interferieren könnte, von vornherein abkoppeln zu können, werden vor der AD-Wandlung Tiefpassfilter eingesetzt. Da die Qualität dieser Filter natürlich von vielen physikalischen und herstellungstechnischen Faktoren abhängt und man in jedem Fall auf der sicheren Seite vor unerwünschten Aliasing-Effekten sein möchte, aber man die Steilheit der Filter nur berechnungstheoretisch kennt, läßt man eine Reserve. Diese entspricht beim einfachen Sampling somit 4.1kHz. Weiterhin kommt dazu, dass ein steiles Filter naturgemäß Phasenverschiebungen in direkter Abhängigkeit zur Steilheit verursacht. Diese klangliche Verfärbung ist natürlich nicht gewünscht.

Die Lösung des Problems liegt auf der Hand, die Abtastrate wird auf ein Vielfaches der doppelten Frequenz des humanen Grundhörbereiches angehoben; Schlagwort Oversampling. Dadurch lassen sich Filter mit geringerer Steilheit anwenden, was somit eine entsprechend niedrigere Verfärbung mit sich bringt – und die unerwünschten Aliasingfrequenzen liegen jetzt weit oberhalb der menschlichen Wahrnehmung. Die Höhe des Parameters Abtastrate/Samplerate kann man in jeder DAW vorzugsweise in fixen Stufen einstellen; 44,1kHz, 48,4kHz, 96kHz, 192kHz usw.

Man sollte hier lediglich beachten, dass eine höhere Samplerate zwar in der Bearbeitung von Audiomaterial des Prozesses Sinn macht – im Falle, dass das Endprodukt ’nur‘ eine CD ist, dort lediglich 44,1kHz wieder als Abtastrate zur Anwendung kommen. Höhere Samplerates verursachen einen erhöhten Datendurchsatz, damit höhere CPU- und Speicherauslastung. Wer technisch gut ausgerüstet ist mit entsprechenden Reserven, für den ist dies natürlich kein Thema.

Das Datenformat, in dem der Mixdown an das Masteringstudio weitergegeben wird, sollte, wie bereits oben erwähnt, eine WAV-Datei sein. Diese ist das verlustlose Rohdatenpaket des Audiomaterials. Neben diesem gibt es noch weitere verlustlos komprimierte Audioformate wie z.B. ALAC, FLAC, APE. Nicht zu verwechseln mit genereller Datenkompression für jegliche Art von digitalen Files. Dies sind zwar auch nondestruktive Verfahren, bei dem die Datei nach der Dekompression wieder in ihrer ursprünglichen Größe und mit identischem Inhalt vorliegt (.zip, .rar), welche aber nicht direkt für den Audiobereich entwickelt wurden.

Keinesfalls sollten die Daten in einem verlustbehafteten Format weitergereicht werden wie z.B. mp3. Dieses nimmt zwar nur noch einen wesentlich kleineren Platz auf dem Datenträger ein, ist aber bereits von  wichtigen Frequenzen, die für das Mastering eine tragende Rolle spielen, ‚befreit‘ worden. Abgesehen davon weist es entsprechend der formatbezogenen Bitrate (B/s) bereits häufig Artefakte (durch Aliasing) auf. Datenreduzierte Formate sind somit ein grundsätzliches No-Go für diesen Zweck. 

WAV – 32Bit FP / 24Bit – 44,1kHz (48,4kHz, 96kHz, 192kHz)