High Resolution Audio - Hoch aufgelöst, oder nur hochgradig beschummelt?
High Resolution oder auf Deutsch hohe Auflösung zählt im Zeitalter der komplett digitalen Musik-Produktion, -Reproduktion und -Transfers zu den zumindest unter Audiophilen heiß diskutierten Themen. Befürworter sprechen von entscheidenden Klangfortschritten, Gegner von unseriöser Geldschneiderei. Einig sind sich die Kontrahenten nur darin, dass sie sich nicht einig sind.
Begriffserklärung
Am besten fängt man die Diskussion mit einer Begriffsklärung an. High Resolution gehört in die Digital Domain. Also dahin, wo Musik in Form von Daten und damit letztlich in Form von Nullen und Einsen aufgezeichnet, gespeichert, wiedergegeben und/oder transportiert wird. Im früher dominierenden Analogen galten natürlich auch relevante Kriterien wie Rauschabstand, Dynamik, Frequenzgang und Verzerrungsarmut.
Sie haben dort aber direkt mit der speichernden oder wiedergebenden Hardware zu tun, also mit der Schellackplatte und dem Trichtergrammophon, dem Tonband und dem Tonbandgerät, der Vinylschallplatte und dem Plattenspieler und dann auch der modulierten Sendefrequenz oder - Amplitude (FM oder AM Rundfunk) und dem Empfänger (Tuner). Im heute dominierenden Digitalen hängen die genannten Kriterien zumindest theoretisch und damit mathematisch/rechnerisch nur indirekt von Hard- oder Software ab.
Sondern erst einmal vom Datenformat, und daran, was die Wiedergabekette davon abbilden kann. Der noch immer entscheidende Faktor ist der Digital-Analog-Wandler: Er steht zwischen den Welten und wandelt abstrakte Zahlenwerte – eine Beethoven-Sonate oder ein Beatles-Evergreen ist in unseren analogen Ohren nun mal keine Folge von Nullen und Einsen – in konkrete Spannungsverläufe um, die ein Verstärker verstärken und ein Lautsprecher oder Kopfhörer wiederum in Schall und damit Musik umwandeln kann.
Grundlagen
In der Digital Domain also bezeichnet man als High Resolution oder Hi Res Audio heute Datenformate, die mathematisch eine höhere Auflösung bieten als das um das Jahr 1982 kommerziell eingeführte CD-Format. Das bedeutet, dass für den ursprünglichen Graphen-Verlauf, der die Musik oder das Signal abbildet, mehr Datentiefe und/oder eine höhere Abtastrate als 16 Bit und 44,1 Kilohertz zur Verfügung stehen.
Will man da ein wenig durchblicken, was Auflösung und damit auch Hohe oder Höhere Auflösung bedeuten, lohnt es sich, ein wenig Grundlagenforschung zu betreiben. Zu Beginn des CD-Zeitalters stellte man das meist mit einer Kurve da, um die sich eine Art Treppe formiert: Die Höhe der einzelnen Stufen beziehungsweise die maximale Höhe der Treppe repräsentiert die Bitrate; die Breite steht für die Abtastfrequenz, also wie oft pro Zeiteinheit die Kurve erfasst wurde.
Ohne das hier im Einzelnen auch nur annähernd erschöpfend behandeln zu können: Die Erfinder der CD beziehungsweise der ihr zugrunden liegenden Pulse Code Modulation (PCM) beriefen sich auf das so genannte Abtast-Theorem der Herren Harry Nyquest und Claude Elwood Shannon (die wiederum Vorläufer hatten): Das besagt, dass ein in seinem Frequenzbereich begrenztes Signal dann adäquat wieder rekonstruiert werden kann, wenn es mit mindestens dem Doppelten der höchsten darin enthaltenen Frequenz abgetastet wurde.
Das menschliche Ohr, zumindest das eines Säuglings und Kleinkindes, hört bis etwa 20000 Schwingungen pro Sekunde, also 20 Kilohertz (KHz). Somit legten die CD-Entwickler 44,1 KHz als Abtastfrequenz fest, ihre für Filmton zuständigen Kollegen kamen auf 48 KHz. Eine Samplingfrequenz, auf die auch das kurzlebige Datenformat Digital Audio Tape DAT „abgestimmt“ war.
Die Datentiefe dagegen legte man auf 16 Bit fest – man ließ aber in der Frühzeit bei DA-Wandlern auch 14 Bit zu. Wir kommen auf die Kurve zurück: Deren maximale Ausdehnung nach oben und unten zusammen soll für die Dynamik stehen, also der Abstand zwischen der vom Betrag höchsten – lautesten – und der niedrigsten – leisesten – Stelle. Jedes Bit bedeutet eine Verdoppelung, also sechs Dezibel (dB) mehr Dynamik. Theoretisch können also 16 Bit 6 x 16 = 96 dB Dynamik darstellen, 14 Bit immer noch 84 dB.
Der Dynamikumfang eines riesigen Symphonieorchesters beträgt etwa 60 dB, in einem Rockkonzert zwischen lauter Pause und Maximalradau desgleichen. Die Hörschwelle von 0 dB wird in der Praxis nie gebraucht , außer vielleicht in einem schalltoten, hermetisch abgeschlossenen Raum. Uns umgeben selbst in extrem ruhiger Umgebung mindestens 30 dB Umweltgeräusche. Denen steht eine Schmerzgrenze von 120 bis 130 dB gegenüber.
Die CD - doch nicht der Heilsbringer
Die CD, beziehungsweise das in dem so genannten Red Book festgeschriebene Datenformat 16/44,1 kann also theoretisch das gesamte musikalische Spektrum speichern. Die Datendichte von 65536 x 44100 = 2,89 Megabit pro Sekunde (Mbps) und pro Stereo-Kanal sollte doch in der Praxis ausreichen. Oder?
Schon früh im CD-Zeitalter nörgelten vor allem Musikliebhaber – und nicht nur die Ewig-Gestrigen – an der Klangqualität der CD herum. Gut, man kann die oft monierte „Sterilität“ psychologisch so erklären, dass durch die Abwesenheit von jedwedem „Dreck“ (Rauschen, Rillengeräuschen, Brummen) das Signal ungewohnt klar und damit irgendwie unnatürlich wahrgenommen wurde.
Doch da fehlte mehr. Heute weiß man: Die Studio-Techniker kamen mit dem neuen Format noch nicht optimal zurecht. Die im Studio längst etablierte Mehrspurtechnik, der Mixdown und das Mastering war auch hardwareseitig auf Digitalseite nur unzulänglich gerüstet – und vor allem die in den CD-Spielern der Verbraucher eingebauten DA-Wandler ließen noch viel Potenzial nach oben - von High Resolution Audio noch keine Spur!
Im Studio
Die Digital-Pioniere in den Aufnahmestudios kamen recht schnell drauf: Einerseits reichten die 16 Bit für die Konsolen und ihre Effekte, für die zahlreichen Nachbesserungen im Sounddesign und die Multi-Mono-Extravaganzen mit 24 und mehr Spuren einfach nicht aus - da musste mehr „headroom“ her. Vor allem aber nervte die Profis – und später auch die Goldohren der High-Ender – die extrem steile Filterung, welche die Abtastfrequenz von 44,1 KHz nötig machte.
Wollte man einen Speicher- und damit Übertragungsbereich bis 20 KHz zulassen, dann mussten extrem steile, man kann auch sagen rabiate Filter her, welche die Abtastfrequenz aus dem Nutzsignal raushauten. Täten sie das nicht, würden sehr unschöne und deutlich hörbare Komponenten in das Nutzsignal einmischen (Aliasing). Diese rabiaten Filter aber zeigten unerwünschte Nebenwirkungen wie Phasendrehungen.
So kam es in den Studios, zumindest in denen, die es sich leisten konnten, schnell zu einer internen Signalverarbeitung mit mehr Bittiefe und höheren Abtastfrequenzen. Noch war Speicherplatz teuer und Rechengeschwindigkeit limitiert. Wir schreiben die 80er Jahre. Auf Verbraucher-Seite etablierte sich schnell das so genannte Oversampling. Bei Philips und Folgern 14 Bit / Vierfach-Oversampling, bei Sony und Lizenznehmern 16 Bit / Zweifach-Oversampling. Mitte des Jahrzehnts gab es dann die 16 Bit / Vierfach-Oversampling-Chips. Oversampling erzeugte auf der Geberseite, der CD, natürlich nicht mehr Daten, bescherte aber nehmerseitig mit 176,4 KHz eine wesentlich höhere Abtastfrequenz, die sich viel leichter und nebenwirkungsärmer aus dem Nutzsignal herausfiltern ließ.
Im fernen Japan hatte CD-Miterfinder Sony sich inzwischen die Plattenfirma Columbia/CBS und damit deren frühe Klassik-Aufnahmen einverleibt. Schnell war auch den Sony-Technikern klar: Die Lebenszeit der analogen Bänder mit den Aufnahmen von Granden wie Bruno Walter war limitiert. Um sie „für die Ewigkeit“ zu konservieren, musste ein Digital-Format her, das mehr bot als das CD-PCM. Nach einigen Erfahrungen mit so genannten „Ein-Bit“-Wandlern - sie ersetzten stark vereinfacht ausgedrückt weitere Bits durch umso höhere Abtastraten von 2,8 Megahertz (MHz = 1000 KHz), also der etwa 64-fachen Abtastrate der CD – ersannen Sony und mitwirkende Firmen Direct Stream Digital DSD.
Auf Tonträgern und "nicht physisch"
Die Studio-Technik drängte natürlich auch die Heimelektronik. DSD 64 wurde das Datenformat für die Super Audio CD, die höheren PCM-Formate wie 24/96 sollten auf Digital Versatile Discs für Audio (DVD Audio) den Verbraucher beglücken. Es kam wie es kommen musste. Der Format-Streit kannte nur Verlierer, DVD Audio ist Schnee von gestern und SACD lebt in nur noch in einer sehr überschaubaren Nische fort. Die CD blieb das Massenformat, bis die digitale Revolution begann, ihre Kinder zu fressen.
Nur von der anderen, der nicht highendig-teuren, sondern der lausig klingenden, billigen Seite her. Das Fraunhofer-Institut entwickelte den MPEG Audio Layer III zu dem datenkomprimierten Format mp3, das die Speicherung, den Transport und damit den Austausch von Musikdateien grundlegend veränderte, weil vereinfachte.
Seit 2012 in Europa und seit 2017 in den USA lizenzfrei, markierte mp3 schnell einen inoffiziellen Standard für codierte (sprich: datenreduzierte) Musik im Internet und auf den Servern, in den Handys und den Sticks der Kids. Und wie reduziert: Bis zu 85 Prozent der CD-Datenfülle ließ sich einsparen. Mit Datenraten von 192 kbit/s – bei vielen Internet-Radios auch weit darunter – brachte das die Audiophilen ins Gruseln, doch den Verbrauchern war Klangqualität wurschd. Denn: Noch immer war Speicherplatz teuer, die Datenübertragungs-Geschwindigkeit in den Datennetzen lahm und die Tauschbörsen lockten mit dem Reiz des Illegalen.
Im Stream
Doch im Digital-Zeitalter gehen die Uhren anders – sehr, sehr viel schneller als im analogen Zeiten. Sogar in digitalen Entwicklungsländern wie Deutschland sind die Übertragungsraten der Datennetze inzwischen recht flott, und selbst riesige Tonträgersammlungen passen inzwischen auf bezahlbare Datenträger. Vor allem aber: Mehrere Anbieter bieten Musik nahezu unbegrenzt an. Das betrifft vor allem die Quantität, doch inzwischen auch die Qualität. Wo zu Beginn der Streaming-Dienste nur datenmäßiger Magerquark zum Streamen oder Download zur Verfügung stand, werben die Anbieter heute mit High Resolution.
Und so scheint der Siegeszug der „körperlosen“ Musik und Musikwiedergabe heute nicht mehr aufzuhalten. Vor allem nicht beim Konsumenten. 2019 übersprang die Zahl der Musikstreams in Deutschland die 100-Milliarden-Marke, 2023 machte der Marktanteil der nicht-physischen Tonträger am Gesamtumsatz des Musikmarktes in Deutschland von 2,21 Milliarden Euro bereits 81,5 Prozent aus. Tendenz: weiter steigend.
Natürlich sind das meiste einzelne Songs oder Songschnipsel (die Statistik des Bundesverbands Musikindustrie zählt Musikstreams ab 31 Sekunden), aber auch das musikalisch und klanglich anspruchsvolle Publikum schwimmt gerne mit im Strom der Zeit.
Die moderne Netzwerktechnik macht`s möglich. Immer günstigerer Speicherplatz auf immer kleinerem Raum und immer höhere Datenübertragungs-Geschwindigkeiten mit entsprechend leistungsfähigen Leitungen und Schnittstellen brachten enorme Entwicklungsschübe. Wo heute hochauflösendes Bewegtbild problemlos zwischen digitalem Sender und Empfänger fließen kann, fährt das vergleichsweise viel weniger datenintensive Audio strömungsgünstig mit. Selbst wenn es in high resolution daherkommt.
Für Zahlenfreunde: Das CD-Format mit 16 Bit Wortbreite und 44,1 Kilohertz Samplingfrequenz braucht inklusive Präambel- und Status-Bits etwa 2,8 Millionen Bits pro Sekunde (2,8 Mbps). Bei High Resolution Material mit 24 Bit und bis 96 Kilohertz Abtastfrequenz kommen da schon 6,2 Mbps zusammen. Die Bit-Transportrate von High-Res Audio (9.216 Kbit/s) ist ebenfalls etwa 7-mal höher als die von CDs (1.411 Kbit/s) und fast 29-mal höher als die von MP3-Dateien (320 Kbit/s).
Das ist übrigens einer der Gründe, warum die drahtlose „wireless“ Übertragung von HiRes-Dateien noch ein wenig in den Kinderschuhen steckt. Nebenbei bemerkt: Auch die Übertragung großer digitalen Datenmengen über Kabel ist letztlich eine analoge. Nur dass die Nullen und Einsen mit fast schon hochfrequenztauglicher Geschwindigkeit durchrauschen müssen. Und doch braucht HiRes Audio immer noch deutlich weniger als bewegte Bilder: Für normales HD-Bild (bei der Bildübertragung wird grundsätzlich datenreduziert) empfehlen entsprechende Gremien minimal 27 Mbps.
Und so funktioniert Audio Streaming heute auf zwei Ebenen völlig problemlos, entsprechende Hardware vorausgesetzt. Die eine Ebene ist das häusliche Netzwerk. Ein mit dem Router verbundener Server – also ein entsprechend dimensionierter Massenspeicher, es kann aber auch das Smartphone sein – beinhaltet dort die eigene Musiksammlung, manchmal auch das entsprechende Verwaltungsprogramm. Die andere ist die große weite Welt des Internet. Dort bieten Streaming Dienste wie Qobuz, Spotify, Deezer ihre gigantischen Musiksammlungen inklusive Neuheiten und zum Teil auch – gegen Aufpreis – in hoher Auflösung feil.
Primare Streaming- & Netzwerkplayer
Und was bringt´s?
Da könnte das audiophile Glück anfangen – stattdessen beginnen neue Probleme. Immer wieder berichten HiFi-Fans, dass brandneue „Hochbit“-Remasterings alter Musik-Schätze sogar noch schlechter tönen als alte CDs. Was ist da los? Zu Beginn des CD-Zeitalters hatten die Ingenieure noch ein sehr überschaubares Arsenal zur Verfügung, wenn es galt, noch analog aufgenommene Klassiker ins Digitalformat, und das waren nun einmal 16/44,1 zu überführen.
Heute gibt es eine prall gefüllte Trickkiste. Und manche Toningenieure erliegen der Versuchung, sie auch zu nutzen: ein wenig mehr Grundton hier, etwas mehr Obertöne da, ein bisschen mehr Räumlichkeit hier, ein wenig mehr Präsenz da, ein bisschen mehr Hall hier drauf, ein wenig mehr Kompression da. Fertig ist das neue Kunstwerk – und klingt nicht mehr echt. Egal, ob es nun als Endprodukt in hoher Auflösung mit 24/96 oder mp3 mit 320 Kbit/s angeboten wird.
Sie erinnern sich im Grundlagenteil an Oversampling? Heute gibt es Upsampling. Das heißt, ein frühes CD-Master oder eine Analog-Überspielung mit 16/44,1 wird im Rechner auf 24/96 hochgejubelt, ohne dass sich am Klang irgendetwas ändert.
Oft wird der Klang sogar schlechter, verliert an Klarheit und Direktheit. Der Fachmann freut sich, dass er höhere Auflösung anbieten kann, der Laie wundert sich, warum es immer noch so klingt. Schummeleien mit geschwindelten Etiketten gibt es auch, doch der Nachweis falsch „beschrifteter“ Hi Res-Files dürfte den meisten Laien schwerfallen - da können die meisten sich nur auf ihre Ohren verlassen. Und die werden auch in Sachen Remastering nur zu oft enttäuscht.
Der Tonmeister Ekkehard Strauss hat das in einem Grundsatz-Artikel mal so auf den Punkt gebracht: „Gerade die Produktionen großer Stars der späten 80er- und 90er Jahre wie Prince, Michael Jackson, Madonna oder Sting sowie auch unzählige Klassikeinspielungen, bei denen auf damals als Gipfel der Audiotechnik angesehene digitale Mehrspuraufnahmesysteme zurückgegriffen wurde, entziehen sich sogar gänzlich jeglichen Remix- oder Remasteringprozessen mit den hohen Auflösungen, die wir heute erwarten. Bei analogen Mehrspurbändern sieht die Sache rein technisch betrachtet zwar deutlich hoffnungsvoller aus, der finanzielle Aufwand ist jedoch beträchtlich.“ Und die Plattenfirmen haben immer weniger Geld.
Aber es gibt doch Master, die nativ, also von Haus aus, in hoher Auflösung vorliegen, argumentieren die Befürworter. Ja, die gibt es, aber eher bei kleinen audiophilen Labeln als bei den wirklich großen Acts. Wir sollten hier auch audiophile „Extremisten“ wie den norwegischen Tonmeister Morten Lindberg ins Feld führen, der seine zahlreichen Grammys und Grammy-Nominierungen für den weltweit respektierten US-amerikanischen Preis nicht nur für Musik, sondern auch für Klangtechnik, sicher nicht für gute Worte einheimste.
Lindberg bietet die in „DXD“ mit – festhalten – 24/352,8 KHz gefahrenen Neuproduktionen seines Labels 2L mehr- und zweikanalig in 24/192 an, das dann auf Bluray „Pure Audio“ Discs. Auf einer zweiten Scheibe, einer auch für CD-Player lesbaren Hybrid-SACD, gibt es das Musikmaterial in DSD64.
Die HiFi-Zeitschriften werden zudem nicht müde, bei jedem Digital-Analog-Wandler (DAC) im Test die Raten aufzuführen, die der eingebaute zentrale Chip, heute meist ein „Sabre“ der kalifornischen Firma ESS, verarbeiten kann. 24/192 sind PCM-seitig das Mindestmaß, auf DSD-Seite geht es rauf bis DSD 256, also ein Datenstrom mit dem 256-fachen der CD-Abtastfrequenz. Bei aller Liebe: Es gibt kaum Musik, die in so hoher Auflösung das Studio verlässt. Und erst keinen der grassierenden „home recordings“ Datenträger.
Und dann gibt es immer noch das „Totschlag-Argument“, dass im Zeitalter der Dynamik-Kompression immer ins Feld geführt wird. Im Pop-und Rockbereich beträgt die Dynamikspanne heute meist nur zwischen drei und sechs dB. Was sollen dann Bittiefen von 24, was theoretisch 144 dB Dynamik würde? Und die, tatsächlich genutzt und mit entsprechen pegelfesten Equipment realisiert, einen potenziellen Hörer buchstäblich umbringen würden.
Zweites Totschlag-Argument: Wir Erwachsenen hören doch ohnehin nur noch bis maximal zehn KHz. Was soll das dann, mit hohen Samplingraten Frequenzen mit theoretisch 48 KHz ins Spiel zu bringen, die allenfalls Fledermausohren noch hören?
Zu Argument Eins: Kein HiFi-Verstärker bietet eine Dynamik von 144 dB, kein HiFi-Lautsprecher kann so laut. In der Studiotechnik aber werden die hohen Bitraten um so mehr gebraucht, je intensiver bearbeitet wird – heute die Regel. Und kommt – auch mal wiedergabeseitig – digitale Lautstärkeregelung ins Spiel, sind hohe Bit-Reserven meist sehr von Nutzen.
Zu Argument Zwei: Der Hochleistungs-Computer in unserem Großhirn, das Hörzentrum, kann unglaublich viel. Auch aus dem wenigen, was ihm die vorgeschaltete Mechanik des Ohres liefert, unfassbar genau Zusätzliches errechnen. Sonst würden wir nie Tante Frieda aus dem quäkenden Lautsprecher eines Smartphones oder Onkel Herbert aus den Tiefen des heimischen Bades erkennen. Doch „Rechnen“ kostet Kraft, es ermüdet. Je weniger der „Zentralcomputer“ rechnen muss, umso entspannter können wir hören. Geben wir ihm also wiedergabeseitig das Beste.
Studio-Cracks haben indes meist ein recht entspanntes Verhältnis zu immer höheren Bit- und Samplingraten. Der geniale, Grammy-ausgezeichnete Schweizer Studio-Ausrüster Daniel Weiss, inzwischen auch im HiFi-Business erfolgreich tätig, hält 24 Bit / 96 KHz, wie sie inzwischen in den meisten Studios die nicht offizielle Norm sind, für „völlig ausreichend“.
Worauf es wirklich ankommt
Und jetzt schließen wir den Kreis zu den einleitenden Zeilen und führen unsererseits ein „Totschlags“-Argument ein: High Resolution Audio ist lediglich ein Mittel zum Zweck. Die Audioqualität, bzw. wie eine Aufnahme klingt hängt davon erst in dritter oder vierter Linie ab. Viel wichtiger ist das Knowhow der Tonmeister, Ingenieure und Techniker. Hinzu kommen die Vorgaben von Musikern und Produzenten, die etwa zwischen „so laut wie möglich“ und „so dynamisch und differenziert wie möglich“ entscheiden.
Es hat schon seinen Grund, warum manche Jazz- und Klassik-Aufnahmen bis zurück in die 1950er, warum manche Pop-Meilensteine aus den 1970ern noch heute auch als highfidele Edelsteine gelten.
Wie gut in welchem Datenformat sie uns dann auf den Streaming-Plattformen angeboten werden, hängt vom Knowhow, Engagement und nicht zuletzt von der technischen und finanziellen Ausstattung der Überspiel-Techniker zwei oder drei Generationen später ab.Und so kommt´s, dass eben manche Supertramp-Scheiben aus dem Streamer nur nerven im Vergleich zu den alten LPs, dass aber andererseits Pink Floyds „The Wall“ in der 24/96-Version einen vom Hocker reißen kann.
Und bezüglich der Wiedergabekette kommt gleich noch ein „Totschläger“ hinterher: Die digitale Klangqualität wird nicht unbedingt im Frontend gemacht, sie entspringt zum größten Teil der Qualität des DACs.