Das Thema wurde hier ja noch nicht näher explizit beleuchtet (wenn doch, berichtige man mich bitte). Warum ich das gerade jetzt hier erstelle -> siehe unten. Das Video von Monty Montgomery erklärt das Wichtigste. Ich mach aber noch ein paar Ergänzungen.
Bittiefe
- Die Bittiefe bestimmt den Rauschabstand. Je mehr Bits, desto weiter liegt das Quantisierungsrauschen unter 0dBFS (dB FullScale). 16bit (CD) hat einen Rauschabstand von 96dB, d.h. das Quantisierungsrauschen liegt hier bei -96dBFS. Die Rechnung ist einfach: pro Bit werden 6dB dargestellt. 24bit (Studiostandard) hat also einen Rauschabstand von 144dB. 32bit floating point ist definitiv "Overkill", hat aber den Vorteil von Übersteuerungsfreiheit. Das ganze hat nichts mit der internen Verarbeitung von DAWs zu tun, die heutzutage die Hardware Resourcen (64bit CPUs) voll ausnutzen -> alle modernen DAWs rechnen intern standardmäßg mit 64bit floating point.
- Die menschliche Hörfläche umfasst bei Musik ca. 60dB. 16bit reichen für fertig produzierte Musik also vollkommen aus. Auch für Tracks mit sehr hoher Verlaufsdynamik (z.B. Klassik): eine Verdoppelung der wahrgenommenen Lautstärke (Lautheit, psychoakustisch) entspricht ungefähr 10dB, eine technische Verdoppelung (Spannung) sind sogar nur 6dB.
- Dither ist zwar auch nur ein Rauschen, allerdings "ersetzt" es das Quantisierungsrauschen nicht (das wird im Video etwas missverständlich ausgedrückt). Der Dither wirkt auf das LSB (unterstes Bit) und muss als letzter Schritt vor der Kodierung dem Signal hinzugefügt werden. Dither erhöht tatsächlich die Auflösung und ermöglicht es, Signale unterhalb des Grenzwerts der jeweiligen Bittiefe kodieren zu können. Bob Katz schreibt dazu in seinem Buch "Mastering Audio", dass sogar Testtöne, die unter -130dBFS liegen, mit 16bit Gedithert noch erfasst werden können. Und dazu kommt eben noch "Noise Shaping" (siehe Video), das das Ditherraschen z.B. hauptsächlich in den erweiterten Höhenbereich verschiebt, wo unsere Hörschwelle sehr hoch ist. Hier haben höhere Abtastraten übrigens tatsächlich einen entscheidenden Vorteil: Der Dither kann hauptsächlich in den Bereich über 20kHz "verschoben" werden. Die maximale Frequenz des Dithers muss sowieso mindestens so hoch sein wie die maximale Frequenz des Nutzsignals (also i.d.R. 20kHz), damit er das gesamte Spektrum des Nutzsignals "dithert" (umgekehrt nicht).
- 24bit sind nur für den Produktionsprozess relevant: Hier arbeitet man mit viel Headroom und unkomprimierten Signalen. Das Quantisierungsrauschen von 24bit liegt übrigens deutlich unterhalb des Grundrauschens von A/D Wandlern (bspw. >100dB SNR), Preamps (Neve 1073 - ein absoluter Klassiker -> ca. 93dB SNR) und Mikrofonen.
Abtastrate
- Die Abtastrate muss mindestens größer als doppelt so hoch sein wie die maximale Frequenz eines Signals (Nyquist-Shannon-Abtasttheorem). Die maximal darstellbare Frequenz einer bestimmten Abtastrate ist die Nyquist-Frequenz, diese ist also immer halb so groß wie die Abtastrate. Die Nyquist Frequenz von 44,1kHz Abtastrate ist demnach 22,05kHz.
- Beinhaltet das abzutastende Signal höhere Frequenzen als die Nyquist Frequenz, entstehen Alias Effekte. Bis zur Abtastrate wird die Frequenz dabei an der Nyquist Frequenz gespiegelt. Ein 30kHz Sinus liegt nach dem Quantisieren mit 48kHz dann also bei 18kHz. Quantisiert man einen 50kHz Sinus mit 48kHz, liegt der Sinus anschließend bei 2kHz. D.h., dass das Signal vor der Abtastung auf jeden Fall begrenzt werden muss, was ganz einfach mit einem Lowpass Filter (im speziellen Fall hier Anti-Aliasing Filter genannt) gemacht wird. Analog->Digital Umsetzer (und umgekehrt auch Digital->Analog Umsetzer) arbeiten dabei mit extrem hohen Oversampling - darauf will ich hier aber nicht näher eingehen.
Relevanter Frequenzbereich geht bis 20kHz
- Kein Mensch kann über 20kHz hören. Zudem verschlechtert sich die Wahrnehmung der Höhen mit zunehmendem Alter immer weiter. Ich bin 29 und kann noch bis ca. 16,5kHz etwas hören, ab 14kHz wird's aber schon schwierig (hab gerade noch mal einen Selbsttest gemacht).
- Das Frequenzspektrum von Sprache bzw. Gesang und allen gängigen Instrumenten geht im Groben auch nur bis 20kHz. Darüber passiert nichts nennenswertes mehr (man kann mich auch gerne berichtigen, aber Ausnahmen bestätigen letztlich sicher die Regel).
- Die meisten Mikrofone und die gesamte gebräuchliche Tontechnik sind auf den hörbaren Bereich bis 20kHz ausgelegt. Viele dynamische Mikrofone fallen sogar schon zwischen 10 und 20kHz steil ab.
Überabtastung
- Eine Überabtastung hat keinen nutzbaren Informationsgewinn zur Folge und stellt den Frequenzverlauf auch nicht exakter dar! 44,1 oder 48kHz reichen für die Abtastung bis 20kHz vollkommen aus. Warum das so ist, wird im Video oben sehr gut veranschaulicht. Es gibt auch nichts "zwischen" den Samples, das verloren gehen könnte. Die größten Trugschlüsse dabei sind, sich die Samples als Treppchen oder - noch schlimmer - sich gerade Verbindungslinien zwischen den Samples vorzustellen. Beides existiert nicht.
- Höhere Abtastraten haben nicht weniger Aliasing zur Folge als niedrige. Der Anti-Aliasing Filter schneidet immer bei jeder Abtastrate genug weg, um Aliasing komplett zu verhindern. Die Cut-off Frequenz des Anti-Aliasing Filters liegt immer, auch bei extremem Oversampling, knapp über 20kHz. Der einzige Effekt, den höhere Samplingraten also erst mal haben, ist eine geringere Flankensteilheit des Anti-Aliasing Filters (siehe Grafik unten).
- Der springende Punkt dabei ist lediglich, dass "Rippling" (siehe Video) entsteht, wenn der Anti-Aliasing Filter etwas wegschneidet. Passiert von vorn herein nichts über 20kHz, macht es schlichtweg keinen Unterschied mit welcher Abtastrate abgetastet wird. Im Video wird auch erwähnt, dass das Rippling mit geringerer Flankensteilheit des Filters schwächer wird. Um mehr geht es dabei schlicht und einfach nicht.
Resampling
- ... ist das Konvertieren eines digitalisierten Signals in eine andere Abtastrate. Das hat weitere Auswirkungen auf den Klang. Es gibt dafür 2 verschiedene Möglichkeiten: Entweder man macht das Resampling über eine analoge Wandlung oder man macht es rein digital.
- Ein rein digitales Resampling ist insbesondere bei nicht ganzzahligen Vielfachen zu vermeiden. Nimmt man bspw. in 96kHz auf und will am Ende für CD mit 44,1kHz mastern, empfiehlt sich ein Resampling über eine analoge Kette. Letzteres kann in Mastering Studios sehr einfach und auch ohne zusätzlichen Aufwand gemacht werden, weil i.d.R. sowieso hochwertige analoge Effekte für den letzten Schliff benutzt werden.
- Der Rechenaufwand eines digitalen Resamplings kann stark variieren. Auch sehr rechenintensive Algorithmen produzieren Artefakte und Verfärbungen. Hier kann man einschlägige SCRs (SampleRateConverters) dahingehend vergleichen: SRC Comparisons
- Bei Oversampling in Plugins wird immer auf ganzzahlige Vielfache gesampelt (genau genommen ist das ein Upsampling). So hält sich der Rechenaufwand in Grenzen und die Vorteile der Berechnung mit der höheren Abtastrate sind größer als die Nachteile des Resamplings selbst (was auch nur bei bestimmten Effekten der Fall ist).
- Das beim Benutzen höherer Samplingraten während der Produktion nötige, den Klang beeinflussende Resampling ist ein weiterer Grund dafür, das Aufnehmen mit höheren Samplingraten insbesondere im Homerecording Bereich auf rein digitaler Ebene in Frage zu stellen. Wenn man es trotzdem macht, sollte man zumindest ganzzahlige Vielfache der Ziel-Samplingrate benutzen. Also für 44,1kHz dann demnach 88,2 oder 176,4kHz, nicht 96 oder 192kHz.
-----------------------------------------------------------------------------------------------------------------------------------------
Bis vor kurzem dachte ich noch, dass das Rippling auch von der "Qualität" bzw. Bauweise des Filters abhängt, aber das stimmt nicht. Im Video wird gezeigt (und wer es noch nicht angeschaut hat -> guckt euch das verdammte Video an ), dass das Rippling ein Effekt eines Bandlimitierten Signals ist und sich auch mathematisch erklären lässt.
Aber warum macht man Oversampling überhaupt, wenn man spätestens im finalen Mastering sowieso mit 44,1 oder 48kHz quantisiert?
Das beste Beispiel ist wohl nachträgliches Oversampling bei der Nachbearbeitung. Von vorn herein mit bspw. 96kHz aufzunehmen hat nicht nur den (statt bei 48kHz) doppelt so hohen Speicherplatzbedarf zur Folge, sondern auch den doppelt so hohen Rechenaufwand bei jedem Bearbeitungsschritt.
Oversampling bei der Nachbearbeitung ist dann sinnvoll, wenn Bearbeitungsschritte zusätzliche Frequenzanteile über 20kHz erzeugen. Hat man mit 44,1 oder 48kHz aufgenommen, ist spätestens ab 22,05 oder 24kHz ja schon nichts mehr vorhanden. Das typischste und häufigste Anwendungsbeispiel ist Verzerrung bzw. Sättigung. Dadurch werden harmonische Oberschwingungen erzeugt. Mit Oversampling entsteht dabei also weniger Rippling im hörbaren Bereich. Nach der Bearbeitung muss natürlich wieder runter gesampelt werden. Ich habe damit selbst viel experimentiert. Vor allem bei einem Clipper Plugin, das ich nutze, macht sich das bemerkbar - da gehts aber gleich um 32x Oversampling (bei 44,1kHz sind das über 1,4MHz). Es erscheint vielleicht unlogisch, weil nach dem Bearbeitungsschritt ja sowieso wieder runter gesampelt wird. Aber es geht darum, dass die Bearbeitung den Sound eben formt und dabei macht sich weniger Rippling durch einen flacheren Anti-Aliasing Filter bemerkbar.
Es gibt wahrscheinlich auch immer mehr Plugins, die standardmäßig mit Oversampling arbeiten, ohne dass man das sehen oder einstellen kann. Anders kann ich mir die CPU-Auslastung einiger Plugins jedenfalls nicht erklären. Ich kann aber definitiv sagen, dass Oversampling allein noch keinen guten Klang macht. Ich kenne einige sehr CPU-freundliche Plugins, die sicher ohne Oversampling auskommen und hervorragend klingen.
Würde es sich lohnen, Produktionen in Zukunft komplett in 96kHz oder höher zu fahren und auch zu verkaufen?
Meiner Meinung nach überhaupt nicht. Der höhere Aufwand im Produktionsprozess lässt sich mit der immer leistungsfähigeren Technik zwar ohne weiteres bewerkstelligen. Aber letztendlich verhält es sich hier ähnlich wie mit der Bittiefe: Höhere Auflösung während der Produktion ist (bei Oversampling auch nur stellenweise) sinnvoll. Aber spätestens danach hört keiner mehr einen Unterschied.
Bringt es etwas, sich fertig produziertes "High Res" Audio zu kaufen oder streamen?
Nein! Weil wahrscheinlich 99,9% der bisher fertig gemasterten Musik in 44,1 oder (selten) 48kHz quantisiert wurde. Und was einmal weg ist, ist weg. Bittiefe und Samplingrate im Nachhinein zu erhöhen ist Blödsinn.
* Quellen der Grafiken über URL einsehbar