Grundlagen der Digitaltechnik Teil 1

Grundlagen

Digitaltechnik im Klartext

Über die auditiven Auswirkungen digitaler Technologien wird seit deren Bestehen heftig diskutiert – mehr oder weniger sachlich und mit mehr oder weniger Realitätssinn. Daher erscheint es notwendig, Fakten und Zusammenhänge zu verdeutlichen.

LP, CD, SACD, DVD-Audio … was haben wir als erfahrene High-Ender und Musikhörer nicht alles schon an Tonträgerformaten erlebt und überlebt, andere wieder sind auch nach Jahrzehnten ihrer Gegenwart nicht totzukriegen. Woran kann es liegen, daß viele von uns heute immer noch die gute alte Vinylschallplatte bevorzugen – andere die CD und wieder andere die SACD? Letztere konnte sich am Markt nie breit durchsetzen, obwohl am Ende durch die Industrie sehr preisgünstige Wiedergabegeräte für teilweise 350 Euro zur Verfügung standen. Wir ahnen schon, nein: wir kennen das Problem im Prinzip alle (!), daß erstmal nicht das Trägerformat per se die Wiedergabequalität einschränkt, sondern die Qualität der Technik, mit der diese wiedergegeben werden und nicht zuletzt auch die akustischen Bedingungen des Raumes, in der wir der Musikwiedergabe, wenn denn möglich, stundenlang frönen. Wenn am Ende hochwertigste Gerätschaften, die sorgfältig und penibel nach teilweise jahrzehntelanger Auseinandersetzung mit der Materie zur Musikwiedergabe in Hörraum oder Wohnzimmer erfolgreich vereint und diese tatsächlich in der Lage sind, während ihrer Arbeit im Dienste der hoffentlich getreuen Musikwiedergabe (eigen-)klanglich völlig in den Hintergrund zu treten, ja, man den Eindruck gewinnt, daß jetzt wirklich nur noch die „Tonkonserve“ gehört wird und darüber hinaus nichts mehr an die emsige „Tätigkeit“ eines Plattenspielers, CD-Players oder einer Bandmaschine erinnert, dann ist „klein Siegfried“ in Walhall angekommen … oder der kleine Prinz… Ab diesem Moment wird der Hörer sicher in die Lage versetzt, wirklich die Darbietung der Künstler, die Qualität der Arbeit des Tonmeisters und die Fertigungsqualität, insbesondere bei Vinylschallplatten, vollends zuverlässig abschätzen zu können.

So wie auch der Weg Hannibals über die Alpen äußerst beschwerlich war, ist der Weg zur passenden Abhöre – bis diese steht und spielt – oft nicht weniger mühsam gewesen. Sofern erstklassige Quellengeräte bei der Wiedergabe zum Einsatz kommen, wird der Hörer zunächst sehr genau die teilweise erheblichen Qualitätsunterschiede zwischen den verschiedenen Aufnahmen an sich feststellen. Dabei gibt es natürlich schlechte, gute und noch bessere Einspielungen. Es wird für den Hörer zunächst leicht zu ermessen sein, daß die Qualitätsunterschiede allein zwischen den guten und den noch besseren Aufnahmen völlig unabhängig vom eigentlichen Trägerformat, als da wären: LP, CD, SACD, DVD-Audio, sicher herausgehört werden können. Es gibt LP-Veröffentlichungen, die besser klingen als viele gehörte CDs, DVD-Audios oder SACDs; und natürlich gibt es auch auf CD, DVD-Audio oder SACD Veröffentlichungen mit absolut herausragender Tonqualität zu kaufen. Das bedeutet: In erster Linie entscheiden das Aufnahmeteam und die darbietenden Künstler mit ihren Fähig- und Möglichkeiten darüber, wie gut es später vom veröffentlichten Tonträger überhaupt klingen kann – und zwar völlig unabhängig vom gewählten Tonträgerformat! Auf  keinen Fall darf in diesem Zusammenhang unerwähnt bleiben, daß die jeweilige Qualität der verwendeten Quellengeräte von allergrößter Bedeutung dabei ist. In der täglichen Praxis stellt besonders die technische Qualität der allgemein zum Einsatz kommenden Geräte sehr oft das eigentliche und hauptsächliche Nadelöhr bei der klangtreuen Wiedergabe der jeweiligen Tonträgerformate dar. Unlängst habe ich dazu explizit zwischen den jüngsten Tonträgern – insbesondere DVD-Audios und SACDs – im Wechsel gehört und mußte dabei erneut feststellen: Ich habe zunächst keinen Unterschied zwischen den Formaten eruieren können, demgegenüber jedoch solche der jeweiligen Produktionen.

Nun ist es so, daß die meisten Aufnahmen, die auf SACD veröffentlicht wurden, oft gar nicht einer reinen DSD-Produktion entstammten, sondern in PCM-Audio (nicht selten in 24 Bit/44,1kHz) aufgenommen und abgemischt wurden, um dann erst ganz am Ende mittels Software-Applikation auf einer Audio-Workstation in das 1-Bit-DSD-Format umgerechnet zu werden. Es erscheint mir als zumindest technisch suboptimaler Weg, wenn eine PCM-Aufzeichnung ins DSD-Rohformat (DSD.IFF) umgerechnet und nach einer verlustfreien Datenkomprimierung (DSD.dst) für das SACD-Master dem Endverbraucher zur Verfügung gestellt wird. Sie bemerken schon: Das Thema ist nicht ganz so einfach und erfordert einige grundlegende Kenntnisse, ohne die wir es an dieser Stelle nicht sinnvoll erörtern können. Beginnen wir daher zunächst ganz am Anfang.

Am Anfang stand die CD

Die CD, die wir alle kennen, bedient sich seit über 25 Jahren der Multi-Bit-PCM (Pulse Code Modulation) mit 16 Bit Wortbreite bei einer Samplingfrequenz von 44,1 kHz. Diese allgemein übliche Samplingfrequenz aus der Anfangszeit der Digitalära wählte man dabei nicht ganz zufällig aus. Die für jene Jahre enorme Speichermenge von ca. 520 MByte für 1 Stunde Aufnahmezeit bedurfte eines Speichermediums, welches zur damaligen Zeit derart große Datenmengen aufnehmen konnte. Die älteren Leser unter uns, die sich vielleicht noch an den Homecomputer aus dieser Zeit, den Commodore C 64, erinnern können, mit seiner damals als „wahnsinnig“ geltenden Arbeitsspeichergröße von 64 kByte RAM (0,064 MByte), werden ermessen können, daß 520 MByte vor 25 Jahren eine beinahe astronomische Speichermenge bedeutete. Als für diese „enormen“ Speichermengen geeignetes Medium stellte sich der damals analoge Videorecorder als geeignet heraus. Gezwungenermaßen mußte daher die damalige Audio-Samplingfrequenz den üblichen Fernsehstandards mit Bild- und Zeilenfrequenz angepaßt werden, so, daß ganze Samples pro Zeile gespeichert werden konnten. Bedingt dadurch, daß es auf der Welt damals zwei Fernsehstandards gab (NTSC 525 Zeilen bei 60 Hz- und PAL 625 Zeilen bei 50 Hz-Bildwiederholungsfrequenz), mußte es ein numerisches Vielfaches aus diesen zwei Systemen sein, bei gleichzeitiger Eignung als Samplingfrequenz für eine Audioaufzeichnung. Diese Frequenz errechnete sich bei jenem Pseudo-Videosystem aus der Multiplikation von aktiven Zeilen mit der Bildwiederholungsfrequenz und der Anzahl der Samples pro Bildzeile. Beim NTSC-Verfahren entfielen einfach 35 ausgetastete Zeilen, woraus sich pro „Bild“ 490 Zeilen ergaben – also 245 Zeilen pro „Halbbild“, während bei PAL die Anzahl der aktiven Zeilen um 37 verringert wurde auf dann 588 Zeilen, welches 294 Zeilen pro „Hauptbild“ ergab. Bei 3 Samples pro Bildzeile sieht das bei NTSC und PAL nun folgendermaßen aus: NTSC 60 Hz x 245 x 3 = 44,1 kHz; PAL 50 Hz x 294 x 3 = 44,1 kHz.

Obwohl die CD natürlich keinen Bezug zu Video hatte, übernahm man diese Samplingfrequenz für die CD, da die Technik zur Masterherstellung auf Videoequipment beruhte. Bei der Digitalisierung eines Analogsignals entsteht aus einem wertkontinuierlichen (analog) ein wertdiskretes Signal (digital). Die Anzahl der Quantisierungsstufen – bei der CD 2 hoch 16 (65.536 Stufen) – ergibt dabei die vertikale Auflösung, mit der die Amplitude des Samples erfaßt wird. Analoge Werte, die zwischen diese Stufenrasterung fallen, werden dem nächstgelegenen diskreten Wert angenähert. Die Differenz zwischen der Amplitude des ursprünglichen Analogsignals und der nächstgelegenden Stufe der Quantisierungskennlinie ist der Quantisierungsfehler. Der Quantisierungsfehler kann als additives Signal aufgefaßt werden. Strenggenommen ist der Quantisierungsfehler eine Quantisierungsverzerrung. Die maximale Fehlergröße beträgt dabei 1/2 der Größe einer Quantisierungsstufe (Q). Arbeitet ein Wandler rauschfrei, bestimmt allein die Quantisierungstiefe den Signal-/Rauschabstand SNR. Bei einem komplexen und großen Eingangssignal wird sich die Größe des Quantisierungsfehlers daher mit gleicher Wahrscheinlichkeit zwischen den Grenzen von Plus/Minus ½ Q verteilen. Bei dieser Betrachtung entspricht das ungewollte Signal einem breitbandigen, spektral weißen Quantisierungsrauschen, welches mit dem Eingangssignal unkorreliert ist. Bei sehr niedrigem Eingangspegel ist aber die Funktion des Quantisierungsfehlers nicht mehr zufällig verteilt, sondern wird von der Wellenform des Eingangssignals abhängig. Das daraus entstehende digitale Nutzsignal ähnelt dann einer Rechteckfolge und der Quantisierungsfehler macht sich als hörbare Verzerrung bemerkbar: „klappern“ des LSB (Least Significant Bit).

Als exemplarisches Beispiel sei hier ein extrem rauscharm aufgenommenes Signal angeführt, während des Ausklanges eines Tones in sehr stiller Umgebung. Der Quantisierungsfehler bekommt dabei den Charakter einer nichtlinearen Verzerrung und extrem kleine Signale werden zum Rechteck, was aus dem harmlosen Quantisierungsrauschen das unangenehme Granulatrauschen werden läßt. Granulatrauschen entspricht einer starken Klirrverzerrung und bei schwankender Signalamplitude verändern sich diese Klirrkomponenten zu einem scharfen „Flanger-ähnlichen“, modulierten Klang. Während bei der „alten“ Analogtechnik Verzerrungen mit steigendem Aufnahmepegel zunahmen, ist es bei der Digitaltechnik genau umgekehrt: gerade kleine Pegel können zu unangenehmen hörbaren Verzerrungen führen. Die nichtlinearen Verzerrungen, die aus den Quantisierungsfehlern insbesondere bei kleinpegeligen Signalen herrühren, verursachen ein harmonisches Obertonspektrum, welches aber erst nach dem Anti-Aliasingfehler auftritt. Es bilden sich Spiegelfrequenzen (Aliasfrequenzen) und es kommt sowohl zu tonalen Artefakten, die man, wie bereits erwähnt, im Englischen als „granulation noise“ (Granulatrauschen) bezeichnet, als auch zu Rauschmodulation. Je niedriger der Eingangspegel bei der A/D-Wandlung wird, desto korrelierter ist die Rauschmodulation mit dem Eingangssignal.

Anti-Aliasing-Filter (Tiefpaßfilter)

Ohne Filterung keine Digitaltechnik

Ein Anti-Aliasing-Filter (Tiefpaßfilter) bewirkt die Begrenzung analoger Eingangssignale vor der A/D-Konvertierung auf die maximal zulässige Bandbreite. Die maximal verzerrungsfrei abzutastende Frequenz des Analogsignals ist nach Nyquist die halbe Abtastfrequenz, also 22,05 kHz im Falle der CD. Gelangen Analogsignale zur digitalen Abtastung, die über der jeweiligen Nyquist-Frequenz liegen, kommt es zu Aliasingverzerrungen, die unangenehm hörbar in Erscheinung treten. Ein periodisches und diskretes Abtasten eines Signals im Zeitbereich hat im Frequenzbereich ein ebenso periodisches, diskretes Spektrum zur Folge. Daraus ergibt sich, daß das Originalspektrum jeweils mit unterem und oberem Seitenband symmetrisch an der Samplingfrequenz und deren Vielfachen gespiegelt wird. Auf Grundlage der Samplingfrequenz der CD von 44,1 kHz muß ein Anti-Aliasing-Filter (Tiefpaß) bis möglichst 20 kHz linear übertragen und bereits bei 22,05 kHz eine genügend hohe Sperrwirkung aufweisen. In der Anfangszeit der Digitaltechnik setzte man dazu extrem steilflankige Analogfilter achter oder höherer Ordnung ein, die aufgrund ihrer enormen Steilflankigkeit zu starken Phasenabweichungen und frequenzabhängigen Gruppenlaufzeiten führten. Verfärbungen im Klangbild waren dabei die Folge. Analoge Filterdesigns achter oder höherer Ordnung tendieren zu Instabilitäten und reagieren nicht unerheblich auf Temperaturschwankungen und Toleranzen während ihrer Betriebszeit.

Technische Weiterentwicklungen führten daher zur Einführung der  Oversamplingtechnik. Die ersten Philips-CD-Player besaßen beispielsweise lediglich 14-Bit-Wandler zur D/A-Wandlung des 16-Bit-Signals und mußten daher mit Oversampling betrieben werden. Oversampling bedeutet, daß man die Abtastfrequenz um das 2-, 4-, oder 8-fache der Standardabtastfrequenz erhöhte. Dieser Prozeß des Oversamplings bewirkt, daß die Spiegelspektren erst erheblich höher einsetzten und die steilflankige Filterung dadurch im Digitalbereich vorgenommen werden konnte, da Digitalfilter wesentlich präziser, besser und preisgünstiger diese Aufgabe erledigen können. Erst am Ende können schließlich „milde“ analoge Tiefpässe zweiter und dritter Ordnung als Anti-Aliasing-Filter eingesetzt werden, die nicht mehr die Nachteile der analogen Filter höchster Ordnungen aufwiesen. Im Gegensatz zu analogen Tiefpässen haben die FIR-(Digital)-Filter bei den Oversamplern den Vorteil, sehr linearphasig zu arbeiten und von daher weisen sie frequenzunabhängige Gruppenlaufzeiten auf – alle Frequenzen verzögern sich gleichmäßig an den Filtern. Genau diese Filter gerieten übrigens im Zuge der Einführung der 1-Bit-DSD-Technik und der SACD zu einem dabei außerst theoretisch betrachteten Kritikpunkt. Gerne demonstrierte man dazu mit Hilfe eines geeigneten Meßgerätes das nicht ideale Vor- und Nachschwingverhalten dieser Filter, also deren Impulsantworten, wenn man diese mit künstlichen Nadelimpulsen, Rechteck- und Sägezahnprofilen – aus einem Signalgenerator gespeist – ansteuerte. Diese Testsignale besitzen allerdings ein unendliches ausgedehntes Oberwellenspektrum und sind lediglich Lehrbuchbeispiele für die Fouriersynthese von elementaren Signalformen, die allerdings in der Praxis für die Qualitätsbewertung eines Wandlersystems nur eine sehr beschränkte Aussagekraft besitzen. Wären diese Signale in der täglichen Aufnahmepraxis als akustisches Quellsignal wirklich vorhanden, müßten Mikrophone als auch Lautsprecher bis weit in den Ultraschallbereich mit völlig linearer Amplitude und Phase wandeln können. In der Praxis ist dieses allerdings völlig ausgeschlossen. Alleine die notwendigen und später in diesem Text noch behandelten 50-kHz-Tiefpässe in den analogen Ausgängen der SACD-Player, würden eine korrekte Übertragung derartiger Signale bereits vereiteln. Zurück zu einem gewünschten Nebeneffekt des Oversamplings, daß infolge der erhöhten Abtastrate der Signal/Rauschabstand bei gleicher Quantisierung ansteigt, weil sich die gleiche Rauschleistung auf ein wesentlich breiteres Frequenzband verteilt und somit im Audioband deutlich weniger unkorreliertes Rauschen vorhanden ist. Innerhalb der Audiobandbreite verringert sich mit jeder Verdopplung der Samplingfrequenz das Rauschen um 3 dB. Die nichtlinearen Verzerrungen, die bei niedrigen Eingangssignalen auftreten, betreffen insbesondere den Bereich des LSB (Least Significant Bit), das die letzte Stelle des digitalen Ausgangswortes darstellt und bei der CD ungefähr im Bereich bei -90 dBFS liegt. Soll ein Wandler auch an dieser Stelle vollkommen verzerrungsfrei arbeiten, muß dem analogen Eingangssignal vor der Quantisierung ein sogenanntes Dither-Rauschen mit bestimmten statistischen Eigenschaften zugegeben werden, um die treppenstufenartige Übertragungsfunktion, die bei geringen Pegeln entsteht, zu glätten. Durch Zugabe von Dither-Rauschen nimmt der Quantisierungsfehler einen rauschartigen und signalunabhängigen Charakter an. Ein sogenanntes „wildes Klappern“ des LSB zwischen 0 und 1 mit Rechteckcharakter kann ansonsten zu unangenehmen hörbaren Artefakten führen, die deutlich oberhalb des Wandlerrauschens liegen. Dithering hat die Aufgabe, den bei kleinen Pegeln auftretenden Quantisierungsfehler, der ein mit dem Musiksignal korreliertes Rauschen darstellt, in ein zum Musiksignal signalunabhängiges weißes Rauschen zu transformieren. Das „Spucken“ der ersten CDs vor dem Versinken des eigentlichen Musiksignals ins Grundrauschen hatte seine Ursache in nicht korrekter Anwendung des Ditherings. An dieser Stelle möchte ich wichtigerweise bemerken, daß einwandfreies Dithering ebenfalls bei jedem Requantisierungsschritt innerhalb der Digitalsignalverarbeitungskette und bei jeder Wortlängenkürzung von einem 24-Bit-Masterband auf die 16-Bit Wortbreite des CD-Formates durchgeführt werden muß. Keinesfalls dürfen bei einer Wortlängenkürzung die letzten Bits des Digitalwortes einfach abgeschnitten werden. Das einfache Abschneiden der letzten Bits wird übrigens auch als Truncation bezeichnet. In der nächsten Folge werden wir uns der historischen und technischen Entwicklung der A/D- sowie D/A- Wandlertechnik zuwenden, um die Motivationsabfolge für verschiedene Entwicklungsrichtung innerhalb der Digitalaudiotechnik besser verstehen und beurteilen zu können.

Digitaltechnik im Klartext

Im ersten Teil der Ausführungen kamen die grundlegenden Fakten der digitalen Aufnahme und Reproduktion zur Sprache. Wenden wir uns nun der historischen und technischen Entwicklung der A/D- sowie D/A- Wandlertechnik zu, um die Motivationsabfolge für verschiedene Entwicklungsrichtung innerhalb der Digitalaudiotechnik besser zu verstehen.

A/D-D/A-Technik im Wandel der Zeit

Die frühen Multi-Bit-Wandler waren sogenannte R-2R-Wandler, in denen die 16- ,18- und 20-Bit-Auflösung durch lasergetrimmte Widerstände verwirklicht wurden. Diese Wandler litten lange an differentiellen Nichtlinearitäten und selbst die besten Vertreter dieser Wandlergattung (BurrBrown PCM 1702-J) zeigten diese Schwäche noch in gewissem Maße.  Das führte insbesondere beim Nulldurchgang des Signales zu hörbaren Verzerrungen. In jenen Anfangsjahren der Digitaltechnik wiesen die eingesetzten Wandler – und natürlich ganz besonders die Typen, die zumeist in CD-Playern des Consumer-Audio-Bereiches zum Einsatz kamen – erhebliche differentielle Nichtlinearitäten mit entsprechenden klanglichen Auswirkungen auf, die wir als High Ender heute in- und auswendig aufzählen könnten! Dieser bittere Beigeschmack, mit dem die CD-Technik noch lange die engagierten Hörer beschäftigte, hatte ihre Ursache im schlichtweg fehlerhaften oder bauteilqualitativ ungenügenden Aufbau dieser Geräte. Herausragend funktionierende Digitaltechnik zu verwirklichen, kostete damals vergleichsweise erheblich mehr als heute und war folglich alles andere als „preisgünstig“ zu realisieren. Hart ausgedrückt, bekam man für 1000 DM wirklich nichts technisch Weltbewegendes. Besagtes R-2R-Prinzip, auf das im Detail hier nicht eingegangen werden soll, zeichnete sich zwar durch geringes Grundrauschen und hohen Dynamikumfang aus, war aber aufgrund der sehr hohen Bauteilekosten nicht durchsetzbar. R-2R-Wandler besaßen zudem ein individuelles Klirrverhalten.

Um später auf der kostenträchtigen Wandlerseite nun Geld einzusparen, proklamierte die Industrie den 1-Bit Sigma/Delta-Wandler, der zwar hinsichtlich der Herstellungskosten deutlich billiger, aber seitens der technischen Leistungsfähigkeit eher schlechter war. Allerdings ließ er sich mit einer niedrigeren Betriebsspannung betreiben und konnte dadurch besonders gut auch in batteriebetriebenen portablen Geräten eingesetzt werden. Dieser Wandlertyp wurde eine zeitlang quer durch alle Endverbrauchergeräte sämtlicher Preisklassen eingesetzt.

Sigma/Delta-Wandler arbeiten nach dem Prinzip der ausschließlichen Messung der Pegeldifferenz (Delta) gegenüber der Signalsumme. Bei sehr schneller Pegelmessung wie bei DSD (2,8 MHz) ist es grundsätzlich möglich, mit nur 1 Bit Datentiefe ein Audiosignal zu erfassen, weil in der unglaublich winzigen Zeitspanne zwischen zwei Messungen sich eine Schwingung im Audiobereich nur in einem sehr geringen Ausmaß verändert. Der Wandler stellt somit nur fest, ob die Audiosignalamplitude seit der letzten Messung größer oder kleiner geworden ist und dafür reichen die Zustände 1 und 0, wobei die 1 eine steigende Amplitude ausdrückt und die 0 eine sinkende Amplitude. Ein Sigma/Delta-Wandler besteht dazu grundsätzlich aus zwei Stufen: dem analogen Modulator und einem digitalen Filter. Der analoge Modulator setzt sich prinzipiell zusammen aus einem in Reihe geschalteten Eingangsdifferenzverstärker, einem Integrierer (Sigma) und einem Komparator (Delta), der als 1-Bit-Quantisierer fungiert und einem Ein-Bit-D/A-Wandler im Gegenkopplungszweig. Das nachgeschaltete Filter (digitales Dezimierfilter) dient der anschließenden Mittelwertbildung aus einer Anzahl von Abtastwerten. Mit dem die Abtastrate dezimierenden digitalen FIR-Filter wird mit Hilfe seiner mittelwertbildenen Akkumulatorfunktion dann bei der A/D-Wandlung ein digitales Ausgangswort in gewünschter mehrbitiger Wortbreite und Samplingfrequenz erzeugt. Ein 1-Bit D/A-Sigma-Delta-Wandler benutzte 128- oder 256-faches Oversampling der CD-Abtastfrequenz in Verbindung mit Noise Shaping („digitale“ Rauschverlagerungsoperation). Durch diesen enorm hohen Oversamplingfaktor kann man das 16-Bit-PCM-Signal der CD in ein 1-Bit-PDM-Signal (Pulsdichtenmodulation) umwandeln. Die D/A-Wandlung würde dann nur noch mit einem Spannungswandler und analogem Tiefpaß erfolgen. Man ersparte sich auf diese Weise einiges an Bauteileaufwand und Kosten, verlor aber letztendlich auch so einiges an möglicher und eigentlich gewünschter Klangqualität, da sich mit derartigen Designs natürlich nicht das „Optimum“ aus der Digitaltechnik herausholen ließ. Man entwickelte lange an der 1-Bit-Sigma/Delta-Wandlertechnik, um am Ende dann dieses Wandlerdesign aufgeben zu müssen. Aufgrund des sehr hohen Abtasttaktes durch das extreme Oversampling handelte man sich u.a. höhere Jitterwerte ein, die wiederum den erreichbaren Signal/Rauschabstand THD/N verschlechterten und Werte kaum oberhalb ca. 105 dB zuließen. Jitter ist ein „Taktzittern“ der Abtastrate und ein Zeitfehler in der Abfolge der Samples. Dieses „Wackeln“ der Abtastwerte hat technisch seine Ursache durch instabile Taktgeneratoren oder eine verrauschte Übertragung bzw. Übersprechen niederfrequenter Signale aus dem Stromnetz. Solange aber das Signal in digitaler Form vorliegt, ist Jitter nicht schädlich. Seine klangdestruktive Wirkung entfaltet Jitter erst bei der D/A-Wandlung, weil dort die Diskrepanz zwischen ideal gleichförmigem und instabilem Takt das Ausgangssignal verformt und damit verzerrt. Das theoretisch mögliche S/N-Rauschverhältnis wird dadurch verschlechtert. Grundsätzlich sind Multi-Bit-Datenworte deutlich unempfindlicher gegenüber Jitter als ein 1-Bit-Datenwort. Bei der PCM-Audiowandlung findet heute unter Verwendung eines Multi-Bit-Sigma/Delta-Wandlers die A/D-Konvertierung mit extrem hoher Abtastrate statt. Anschließend kann durch Dezimierung mit einem digitalen Filter die gewünschte Quantisierungstiefe (heute meist 24 Bit) bei entsprechender Ziel-Samplingfrequenz erreicht werden. Nach dem Aufzeichnungsvorgang ist für die D/A-Rückkonvertierung zunächst eine Interpolation (Oversampling) mit recht steilflankigen Filtern und erneute Multi-Bit-Sigma-Delta-Wandlung erforderlich, bevor der Datenstrom als analoges Ausgangssignal zur Verfügung steht.

Der Ansatz von Direct Stream Digital (DSD), welches die technische Grundlage für die SACD darstellt, fußte ursprünglich auf dem Gedanken, ein analoges Signal mit extrem hoher Abtastrate von 2,8244 MHz mit einem 1-Bit Wandler nach dem Sigma/Delta-Prinzip abzutasten und geradewegs das 1-Bit-Datensignal aufzuzeichnen sowie bei der D/A-Wandlung das 1-Bit-Signal direkt zu den analogen Tiefpässen schicken zu können. Gegenüber einer PCM-Audio-Aufnahme und -Wiedergabe würde man folglich auf der A/D-Seite den Dezimationsfilter und auf der D/A- Seite das Oversampling- bzw. Interpolationsfilter und den Sigma-Delta-Modulator einsparen. Des weiteren wäre auf der A/D- und D/A-Seite nur noch ein sehr mildes Anti-Aliasingfilter notwendig, da die Nyquistfrequenz mit 1,4122 MHz weit oberhalb des eigentlichen Audiobandes liegt. Durch die zwischenzeitliche technische Weiterentwicklung der A/D- und D/A-Konverter in Sigma/Delta-Technologie als Multi-Bit-Wandler, läßt sich dieser zunächst gedanklich nachvollziehbare Ansatz jedoch mittlerweile längst mit Fragezeichen versehen, seit die Wandlerhersteller den technischen Mittelweg zwischen dem 1-Bit-Sigma/Delta-Prinzip und der Multi-Bit R-2R Bauart erfolgreich beschritten haben. Die 1-Bit-Sigma/Delta-Wandler besitzen zwar sehr gute Linearität und sind preiswert zu fertigen, weisen aber einen deutlich geringeren Dynamikumfang als die mit lasergetrimmten Widerständen ausgestatteten Konverter der Multi-Bit R-2R-Bauart auf. R-2R-Wandler implizieren dagegen differentielle Nichtlinearitäten und besitzen gleichwohl einen sehr großen Dynamikumfang. Beim Einsatz von vielen Bits steigen die Verzerrungen und bei wenigen Bits sinken diese. Bei hoher Bitzahl ist Jitter ein erheblich geringeres Problem als bei wenigen Bits Aus diesen Gründen und dem daraus folgernden logischen Wunsch nach einer Minimierung solcher Gegensätze wurden schnelle 2- bis 6-Bit-Konverter-Designs nach Sigma-Delta Prinzip entwickelt, wodurch auch das notwendige Noise Shaping weniger extrem ausgelegt werden konnte – im Vergleich zu einem reinen 1-Bit-Wandlerdesign. Um möglichst differentielle Nichtlinearitäten zu vermeiden, werden in derlei ICs mehrere dieser Wandler eingesetzt, die das Signal jeweils per Zufall erhalten. Der Fehler, der sich aus der Nichtlinearität eines Wandler ergibt, wird dadurch geglättet und macht sich als Rauschen bemerkbar. Man könnte wohl treffend bemerken, daß diese Wandler von einer günstigen statistischen Verteilung der Restfehler „leben“, bzw. von einer gekonnten Maskierung der Fehler.

Wie funktioniert DSD?

An dieser Stelle möchte ich nun weiter auf die DSD-Technik und ihre Besonderheiten eingehen. Bei jeder DSD-Signalverarbeitungsstufe, angefangen bei einer simplen Lautstärkeänderung, muß ein 1-Bit-Signal zunächst in ein Multi-Bit-PCM-Signal umgewandelt werden, da es aus mathematisch-physikalischen Gründen nicht möglich ist, diese Rechenoperation auf der 1-Bit-Ebene zu erledigen. Jede Requantisierung zurück in ein 1-Bit-DSD-Signal ist allerdings wiederum verlustbehaftet und fügt dem Signal dabei nicht vollständig unterdrückbare Verzerrungen, Grenzzyklen und ungeheure Mengen an HF-Schmutz zu. Der HF-Schmutz bedingt zudem, daß schon nach 2 bis 3 DSD-Signalverarbeitungsstufen mit Requantisierung Übersteuerungen auftreten würden – selbst wenn der Tonmeister nur Stille aufgezeichnet hätte (!) -, die nun wiederum die Einführung von Tiefpässen unbedingt erfordern, welches dann die tatsächliche SACD-Bandbreite auf praktisch 40 – 50 kHz beschränkt. Die Umwandlung eines PCM-Masters zu einem DSD-Format erfolgt dabei mit Hilfe eines 1 Bit Sigma-Delta-Modulators. Demzufolge ist die erreichbare -3 dB-Bandbreite von DSD nicht größer als bei 96 kHz PCM-Audio! Aufgrund dieser und anderer Nachteile hatten sich Sony und Philips von der Idee einer Signalverarbeitung auf 1-Bit-Niveau verabschiedet und empfehlen für die SACD-Aufnahme- und Studiotechnik herkömmliches Multi-Bit-PCM mit einer Abtastrate von 352,8 kHz (!), damit die durch die sehr hoch gewählte Abtastrate entstehenden enormen Datenmengen zur Distribution auch keinesfalls auf eine handelsübliche DVD-Audio passen würden – galt es doch, PCM-Audio zu verteufeln… In der der täglichen Praxis wurde allerdings meistens PCM-Audio mit Abtastraten von 44,1,  88,2 und 96 kHz bei der Tonaufnahme verwendet. Was es darüber hinaus mit der Sinnhaftigkeit der Erhöhung der Abtastrate auf über 48 kHz am Ende wirklich auf sich hat, wird am Ende dieser Artikelserie noch einmal genau dargestellt. Dem aufmerksamen Leser wird in der Zwischenzeit nicht entgangen sein, daß somit auf der gesamten Aufnahmeseite das 1-Bit-Format praktisch nicht mehr vorkommt. Erst beim finalen Mastering wird in der Praxis das digitale Tonmaterial von PCM auf das DSD-Format für die SACD konvertiert. Zumindestens stellt sich glücklicherweise die Wandlung von PCM ins DSD-Format weitgehend verlustfrei dar. Eine Wandlung von DSD ins PCM-Format ist dagegen aber verlustbehaftet! Zusätzlich qualitätsmindernd im Bezug auf das eigentliche Klangoriginal muß in vielen Fällen am Schluß auf der Abspielseite beim Konsumenten das DSD-Signal der SACD durch ein „DSD-Filter“ wiederum in ein Multi-Bit-PCM-Signal überführt werden, da alle hochwertigen A/D- und D/A-Konverter heute Muti-Bit-PCM Wandler sind. Warum einfach,wenn es auch umständlich geht…

Aus aktuellem Anlaß möchte ich an dieser Stelle mit einem Beispiel aus der Praxis an Hand derzeit häufig eingesetzter ADCs und DACs aufwarten. Der PCM 4202 stellt derzeit die Einsteigervariante der neuen 4000er Wandlerserie des Herstellers Burr-Brown dar. Mit diesem ist derzeit wieder ein ADC verfügbar, der am Eingang einen echten 1 Bit Sigma-Delta-Modulator besitzt, während aber das Spitzenmodell der Burr-Brown-Wandlerserie derzeit der PCM 4222 markiert, der vielsagend mit einem 6 Bit Sigma-Delta-Modulator am Eingang aufgebaut ist und natürlich einen besseren Signal-Rauschspannungsabstand als der PCM 4202 besitzt. Ein Aufzeichnen von „Ultraschall-Audiosignalen“ oberhalb 50 kHz in PCM-Audio mittels einer Samplingrate von 176,4/192 kHz würde beim Einsatz des PCM 4202 zu einem ineffizienten Unterfangen werden, weil das Grundrauschen des Ausgangssignals des Wandlers ab 50 kHz bis 100 kHz dabei um 60 dB ansteigt. Dem Datenblatt des PCM 4202  ist im speziellen dabei zu entnehmen, daß der Rauschabstand innerhalb des Audiobereiches unter Verwendung des 2,8 MHz-DSD-Mode durchweg um 3 dB schlechter ist als in allen anwählbaren PCM-Modi. Das bedeutet schlichtweg, daß der PCM 4202 im DSD-Mode hörbar schlechter wandelt als unter Verwendung des PCM-Modus bei 44,1 kHz! Ein ähnliches Klangverhalten kann man vom CS 4398 DAC berichten. Dieser DAC weist bei direkter (puristischer!?) Zuleitung eines DSD-Signals auf die Switched Capacitor-Schaltstufen am Ausgang des Chips einen um 3 dB verringerten Dynamikumfang sowie ein Ansteigen der Verzerrungen um 3 dB auf, was ebenfalls hörbar bemerkt werden kann. Die Frage, warum hochwertige Multidisk-Player schon ab den Ausgangsbuchsen im PCM-Mode anders klingen als im DSD-Mode, dürfte somit nachvollziehbar erklärt sein.

Moderne Tonaufnahmeprojekte verfügen nicht selten über mehr als 40 Spuren, die für eine Stereoproduktion auf lediglich dann 2 Spuren heruntergemischt werden müssen, wodurch sich natürlich auch die HF-Störpegel der 40 einzelnen DSD-Signalspuren folglich auf ein bedenkliches Ausmaß summieren können! Am Ende holte uns schneller als wir zunächst meinten, die Sinnfrage unseres Tuns dabei wieder ein. Während die korrekte Signalaussteuerung einer PCM-Audio-Aufnahme mit einem „herkömmlichen“ Aussteuerungsmeßgerät, welches zuvor auf ein 1-kHz-Signal kalibriert werden mußte, zuverlässig kontrolliert werden kann, ist naturbedingt für die DSD-Aufnahme ein aufwendigeres Aussteuerungsmeßgerät nach Annex D- und E-Standard notwendig, auf dem unter anderem gleich drei Meßbereiche (!) überwacht und kontrolliert werden müssen. Dabei dürfen die zulässigen Grenzwerte der Bereiche AF (Audible Frequency – Hörbereich bis 20 kHz), HF (High Frequency – Meßpunkt bei 40 und 100 kHz) und MP (Maximum Peak –  Analyse einer 28-Bit-Sequenz Maximalwert 3,10 dB SACD, wobei 0 dB SACD 2 Volt RMS Sinus entsprechen) für die SACD-Master-Herstellung nicht überschritten werden!

In der digitalen Audiotechnik entspricht 1 Bit Wortbreite ca. 6 dB Dynamikumfang, welches natürlich für die Aufnahme und Wiedergabe von Musik viel zu gering wäre. An dieser Stelle kommt das Noise Shaping ins Spiel, eine Technik zur Verringerung des Quantisierungsrauschens, die mit Oversampling und Wortbereitenreduktion (Re-Quantisierung) enge Verwandtschaft aufweist. Die grundlegende Idee ist, das Quantisierungsrauschen bei hohen Frequenzen zu erhöhen und gleichzeitig bei niedrigen Frequenzen zu verringern. Dies erfordert, daß die Nyquist-Frequenz weit oberhalb der höchsten Signalfrequenz liegt, so daß eine große Lücke im Spektrum zwischen höchster aufzuzeichender Signalfrequenz und Nyquistfrequenz vorhanden ist. Das Prinzip des Noise Shapers ist die Rückkopplung des Quantisierungsfehlers zum Quantisierer-Eingang. Noise-Shaping-Algorithmen werden häufig bei den Wortbreitenreduktionen eingesetzt, um die in den zusätzlichen Bits des Masterbandes (24 Bit) enthaltene Information in die 16-Bit-Zielwortbreite der Audio-CD hinüberzuretten. Durch eine geschickte Fehlerrückkopplung taucht die ursprünglich in den „abgetrennten“ Bits gespeicherte Information in der Zeitstruktur des Noise-Shaper-Ausgangs wieder auf. Allerdings weist das Noise-Shaping-Verfahren eine starke Frequenzabhängigkeit auf, weshalb bei hohen Frequenzen die Fehlerrückkopplung zu einer Vergrößerung des Quantisierungsfehlers führt. Die in der Praxis angewendeten Noise Shaper höherer Ordnung und Noise-Shaping-Algorithmen sind daher in ihrer Funktionsweise äußerst komplex und letztendlich nur noch in Formeln zu erklären – was an dieser Stelle zu weit führen würde. Damit am Ende die DSD-Technik überhaupt tauglich für die Aufzeichnung und Wiedergabe von Musik ist, muß dieses 1-Bit-DSD-Signal mit extremem Noise Shaping (Rauschverlagerungsoperation in nicht auditive Frequenzbereiche) „repariert“ werden. Anstatt nun aber mit extremen Noise Shapern diesen unzureichenden Dynamikumfang im Audioband zu reparieren, könnte man auch gleich mit 24-Bit-PCM eine Aufnahme fertigen, die auch ohne Anwendung von ausuferndem Noise Shaping einen theoretischen Dynamikumfang von 144 dB bietet – ein Wert, der sogar deutlich größer wäre als der unseres Hörsinns. Gleichzeitig würde damit begleitend kein unsinniger HF-Schmutz auf ein Distributionsmedium transportiert werden. Die Bitrate bei 24 Bit/96 kHz-PCM-Audio liegt zudem merklich unter der einer SACD und die erste Ultraschall-Oktave würde trotzdem voll mitübertragen werden. Moderne Spitzenklasse-A/D- und D/A-Wandler basieren, wie bereits erwähnt, auf Multi-Bit-Sigma/Delta-Strukturen in 2- bis 6-Bit-Architektur, weshalb mit dem „ursprünglichen“ 1-Bit-DSD-Signal bereits schon an beiden Enden der Übertragungskette gebrochen wird; denn vor der D/A-Wandlung eines 1-Bit-Digital-Stream-Signals muß dieses zuerst wieder zu einem Multi-Bit-PCM-Signal „aufsummiert“ werden, damit es dann mit Hilfe eines Multi-Bit-PCM-Wandlers in ein Analogsignal umgewandelt werden kann! Die digitale Demodulation erfolgt dabei durch einen dezimierenden digitalen Tiefpaßfilter – wobei mit abnehmender Abtastrate die Wortbreite erhöht werden kann. Wegen des extremen Noise Shapings, welches man benötigt, um einem 1-Bit-System ein S/N-Verhältnis von 120 dB unterhalb 20 kHz abzuringen – wozu etwa 115 dB negatives Feedback erforderlich sind – haben das Ultraschallrauschen und die Grenzzyklen-Artefakte eine viel höhere Energie als das eigentliche Nutzsignal. Derartige Störsignale dürfen auf keinen Fall die nachfolgenden Komponenten der Audiokette erreichen, weil sonst die Gefahr bestünde, daß Hochtöner und auch Leistungsverstärker Schaden nehmen könnten. Zudem könnte – je nach Bauart des verwendeten Vorverstärkers – selbiger durch Schwingneigungen in seiner korrekten Funktion beeinträchtigt werden.

Hat man zwei oder mehr hochfrequente Signale in einer nichtlinearen Übertragungskette, wie zum Beispiel einen schmalbandig arbeitenden Vorverstärker oder aber auch nur Steckerübergänge, können sogenannte Intermodulationen auftreten. Bei diesen Störungen handelt es sich um Mischprodukte zweier Frequenzen. Zwei hochfrequente Störfrequenzen, die zwar selbst weit außerhalb des Audiobandes liegen und beispielsweise einen Abstand von 10 kHz zueinander aufweisen, können somit auch Störungen im Audiofrequenzbereich erzeugen! Entgegen dem technisch sinnvollen Weg der breitbandigen Auslegung von Verstärkerelektronik halte ich es für bedenklich, wenn von einem Quellengerät zusätzlich Hochfrequenz in die Wiedergabekette emittiert wird. Strenggenommen müßte im jeweiligen Einzelfall geprüft werden, welche weiteren technischen Maßnahmen an der Wiedergabeeinrichtung getroffen werden müßten, um sicherzustellen, daß eine Hochfrequenzemittierung durch das Quellengerät in dieses auch wieder ausreichend zurückreflektiert wird, um die tatsächlich im Audiosignal enthaltene Musikinformation nicht weiter zu verfälschen. In der Praxis liefert deswegen ein 1-Bit-2,8224-MHz-Stream-Digitalsignal durch entsprechende Tiefpaßfilterung am Quellgeräteausgang letztendlich auch nur einen linearen Frequenzbereich von 40 – 50 kHz. Ferner bleibt nur, weiterhin auf gute experimentelle Daten zu warten, die eine wahrnehmbare Klangtreueverbesserung durch Bandbreitenerweiterung auf deutlich über 20 kHz belegen würden. Es steht völlig außer Frage, daß es durch die starke HF-Belastung eines 1-Bit-DSD-Signals bei Verstärkern und Lautsprechern zu Intermodulationsverzerrungen kommen kann, die dann wiederum Intermodulationsartefakte innerhalb des Audiobandes erzeugen, welche ursprünglich nicht inhaltlicher Bestandteil des digitalen Audiosignals waren!

Untersuchungen

Seit einigen Jahrzehnten geht die Wissenschaft davon aus, daß die Obergrenze des menschlichen Hörfrequenzbereiches bestenfalls bei ca. 20 kHz liegt, bei vielen älteren erwachsenen Personen liegt die „obere Grenzfrequenz“ bei lediglich 16 kHz oder noch darunter. Trotzdem wurden bei Hörtests mit Musikmaterial, die in jüngster Vergangenheit im Rahmen der 96/192kHz-PCM-Diskussion durchgeführt wurden und auch besonders für das hochfrequenzreiche DSD-Signal Gültigkeit haben, Unterschiede zwischen Signalen festgestellt, die durch die Übertragungskette bis 20 kHz begrenzt waren und solchen, die über eine Übertragungskette mit weiterreichendem Frequenzbereich wiedergegeben wurden. Vor diesem Hintergrund führten die beiden Wissenschaftler Ashihara Kaoru und Kiryu Shogo vom japanischen Institut ETL verschiedene Experimente und Hörversuche durch, deren Ergebnisse auf der 7. AES Convention (Paper No. 5401) der Fachwelt präsentiert wurden. Hiernach wird die Existenz eigentlich unhörbarer Frequenzen unter anderem dann wahrgenommen, wenn sie zusammen mit weiteren komplexen, nicht sinusförmigen Signalen über ein nichtlinear übertragendes System wiedergegeben werden. Durch diese nichtlinearen Übertragungseigenschaften werden die höherfrequenten Signale in den Hörfrequenzbereich demoduliert. Übertragungsglieder der Audiokette, bei denen das nichtlineare Übertragungsverhalten relativ stark ausgeprägt ist, sind z.B. die Lautsprecher, über die das Musiksignal wiedergegeben wird. Unterschiede, die bei Hörversuchen via Übertragungsketten mit unterschiedlichen oberen Grenzfrequenzen (> 20 kHz) durchaus herausgehört werden, lassen sich auf zusätzliche niederfrequente Intermodulationsprodukte u.a. der Lautsprecher zurückführen, die dann auftreten, wenn diese mit höherfrequenten (Nutz-) Signalen angeregt werden. Die hochfrequenten (oberhalb 20kHz), zumindestens bei PCM-Aufnahmen zur Originaldarbietung gehörenden Signale, werden dagegen vom Menschen nicht wahrgenommen! Vor diesem Hintergrund erscheint es als wenig verwunderlich, das namhafte Lautsprecherentwickler nach ihrer ingenieurstechnischen Meinung gefragt von einer Beaufschlagung der Lautsprecher mit HF oberhalb des  menschlichen Hörbereiches grundsätzlich abraten.


Advertisements
Dieser Beitrag wurde unter Digitale Audiotechnik abgelegt und mit , , , , , , , , , , , , , , , , , , , , , , , , , , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Kommentar verfassen

Bitte logge dich mit einer dieser Methoden ein, um deinen Kommentar zu veröffentlichen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s