Die wunderbare Welt des IP-Clockings

09/08/2017

Wie man mit Audio-over-IP digitale Glitches vermeidet.

Sämtliche digitalen Audio-Systeme brauchen eine Clock, damit alle angeschlossenen Geräte synchron miteinander arbeiten. Mit den Netzwerk-Audio-Systemen, die eine Vielzahl an Verbindungen und Kommunikationsinfrastrukturen nutzen, bedarf es neuer Wege, um Sync-Signale an alle Geräte eines Netzwerks zu verteilen, ohne dass es zu den gefürchteten digitalen Glitches kommt.

In herkömmlichen Digital-Audio-Systemen ist der Quasi-Standard zur Synchronisation von digitalem Equipment die Nutzung einer verteilten WordClock. Focusrites Will Hoult erklärt die Hintergründe. „Die einfachste Art, WordClock in einem System bereitzustellen, funktioniert mit einem BNC-Kabel, mit dem man den WordClock-Ausgang eines Geräts mit dem WordClock-Eingang eines anderen Geräts verbindet. Die digitalen Audiosignale laufen dabei über andere Kabel, wie ADAT, AES2 oder S/P-DIF. Die Clock-Signale werden dabei nur für die Synchronisierung verwendet. Das Signal, das über das BNC-Kabel übertragen wird, ist ein Rechteck-Signal, das für jedes erfasste Sample einen führenden Ausschlag (Pulse) zeigt. Wenn die Sample-Rate 96 kHz ist, enthält das Signal also 96.000 Pulse pro Sekunde. Über das Clock-Signal erfährt das empfangende Gerät, wo der Startpunkt eines jeden Samples liegt. Das geschieht über die kontinuierliche Aussendung von „Sample Start“-Pulsen.

Sobald man ein Gerät in diese Kette mit einem weiteren BNC-Kabel einfügt, wird das Clock-Signal an das nächste Gerät weitergeleitet, um die Synchronisation sicherzustellen. Die Methode eignet sich für Systeme, bei der die Komponenten nicht weit voneinander entfernt zum Einsatz kommen, wie ein Recording-Studio oder eine Mastering-Suite. „Versucht man, diese Art der Synchronisierung auf Interfaces in einem IP-Netzwerk zu übertragen“, merkt Hoult an und erläutert weiter: „dann benötigt man eine große Menge an Daten und Bandbreite, nur um Clock-Informationen zu übertragen. Das ist keine sonderlich effiziente Arbeitsweise.“

Bei einer so großen Zahl an Netzwerkverbindungen wäre es unpraktisch, WordClock-Signale in einem IP-basiertes System zu verteilen.

IP-Clocking: Eine andere Welt
Doch nicht nur die Frage der Datenbandbreite lässt die traditionelle WordClock-Synchronisation bei Audio-over-IP-Systemen wie Dante unpraktisch erscheinen. Einen störungsfreien und ununterbrochenen Datenfluss zu garantieren, ist technisch nicht ganz einfach. Ganz zu schweigen davon, was passiert, wenn man dabei auch noch große Distanzen überbrücken muss. Einer der Vorteile von Dante-Systemen ist die Möglichkeit, Systeme zusammenzustellen, deren Geräte oft kilometerweit voneinander entfernt stehen. Eine Synchronisierung über WordClock wäre hier schlicht nicht möglich.

Die Architekten des Internet-Protokolls (IP) haben dafür noch vor der Zeit, bevor die Audio-Welt die Netzwerke für sich entdeckt hat, eine Lösung gefunden. Über Dante verbundenes Equipment nutzt eine ganz andere Methode des Clockings, also der Synchronisation. Offiziell bekannt ist sie unter der Bezeichnung IEEE 1588 v1 Precision Time Protocol (abgekürzt PTP). Will Hoult erklärt. „In einem System mit PTP-Clocking hat jedes Gerät im Netzwerk einen eigenen, sehr hochwertigen Kristall-Oszillator, der mit einer bestimmten Frequenz schwingt. Diese wird jedoch von Temperatur und Luftdruck beeinflusst. Damit steht für jedes Gerät eine unabhängige interne Clock zur Verfügung, welche sicherstellt, dass jedes Gerät seine eigenen Daten verarbeiten kann. Das Interface synchronisiert sich gewissermaßen selbst.“

Allerdings ist die Synchronisation mit anderen Geräten hier immer noch nicht gelöst. Hat man zum Beispiel zwei verschiedene Geräte, die an zwei Plätzen stehen, deren Temperatur und/oder Luftdruck nicht gleich sind, werden beide Geräte mit einer anderen Frequenz schwingen.

Separate WordClock-Verbindung von mehreren Geräten sind bei der Nutzung von Dante-Geräten nicht mehr erforderlich.

„PTP schickt also regelmäßige Time-Aktualisierungen über das Netzwerk“, ergänzt Hoult und führt weiter aus: „Alle angeschlossenen Geräte im Netzwerk führen dann in regelmäßigen Abständen eine Re-Kalibrierung aus. Genauer gesagt: Das geschieht alle 250 Millisekunden. Im Gegensatz zur Verteilung eines schnellen und ununterbrochenen Clock-Pulses, wie beim WordClock-System, arbeiten wir jetzt mit der aktuellen Zeit*. Wenn das ausreichend oft erfolgt, so werden Abweichungen einzelner Oszillatoren vermieden, und wir haben klare und stabile Audio-Signale bei allen Interfaces garantiert.“

*Die aktuelle Zeit ist normalerweise für ein Audio-Netzwerk nicht wichtig. Eine Ausnahme sind Rundfunk-Anwendungen, wo eine spezielle GPS-Master-Clock zum Einsatz kommen kann, um ein System mit der aktuellen Zeit zu synchronisieren. Focusrite RedNet- und Red-Geräte arbeiten mit der UNIX-Time (auch als POSIX- oder Epoch-Time bekannt). Damit werden die Sekundengezählt, die seit dem 1. Januar 1970 um Mitternacht (UTC) vergangen sind. Zum Zeitpunkt, als dieser Artikel verfasst wurde, war die UNIX-Time 1487473910151.

Zähl’ es laut
Will Hoult erklärt PTP gerne mit einem Vergleich aus der Musik: „Stell dir vor, du hast drei Leute, die gemeinsam bis fünf zählen sollen. Von sechs bis zehn sollen sie weiterzählen, aber still in Gedanken. Wenn sie die Elf erreichen, sollen sie laut das Wort „Elf“ sagen. Man kann sehr sicher sein, dass die ersten fünf nahezu perfekt synchron sein werden. Aber bei der Elf dürfte es schon Abweichungen geben. Würde man jedoch einen Dirigenten in diesen Szenario einsetzen, gäbe es das Problem nicht mehr.“ Hoult fährt fort: „In einem Orchester gibt der Dirigent auch nicht jede einzelne Note für dich vor, sondern zählt vielleicht nur die Viertel. Die Musiker haben also eher „Referenzpunkte“, an denen sie sich orientieren und müssen nicht jede Note vom Dirigenten gezeigt bekommen. Wenn der Schlagzeuger zum Beispiel 16tel spielt und die Zeitreferenz aber auf den Off-Beats erfolgt, können die anderen Zeiten dennoch zeitlich sauber gespielt werden. Bei PTP - um den Vergleich zu übertragen - entspricht das rhythmische Verhalten der Musiker dem Kristall-Oszillator und die Zeit-Referenz ist der Schlag mit dem Taktstock des Dirigenten.

Ein Dirigent gibt allen Musikern in einem Ensemble eine reguläre Zeitreferenz, der sie folgen können. Ein ähnlicher Vorgang ist auch im PTP-Protokoll enthalten, das von Dante-Geräten genutzt wird.

Aber woher stammt diese Referenz? In einem Setup mit verteilten WordClock-Signalen würde man ein Gerät als Master definieren und dann das Signal in Reihe an alle andere Geräte weiterleiten. Diese Geräte würden dann als Slave arbeiten. In Audio-über-IP-Netzen misst innerhalb von PTP ein Clock-Election-Protokoll die internen Clocks von verschiedenen Geräten und legt dann fast, welches der „Grandmaster“ sein soll. Das System übernimmt dabei die komplette Arbeit für dich. (Dante-Controller bietet eine Option, bestimmten Geräten im Netzwerk den Status „Bevorzugter Master“ zu verleihen, wenn du deine Master-Clock-Quelle gerne selber bestimmen möchtest).

Die Vorteile
Die Viertelsekunden-Periode von PTPs Zeit-Rekalibrierung mag wie eine Ewigkeit in der digitalen Audiowelt klingen, aber mehr braucht es nicht, um alle Geräte in perfekter Synchronisation zu halten. Das ist der Vorteil dieser Arbeitsweise. Während bei einem WordClock-basierten System 96.000 Pulse pro Sekunde übermittelt werden, sind hier nur vier kurze Datenpakete nötig, was eine große Ersparnis von Bandbreiten mit sich bringt.

„Das Letzte, was du dir wünscht, ist die Clock zu verlieren“, meint Hoult und fährt fort: „Das ist das wichtigste Signal, was im Netzwerk vorhanden ist. Deswegen priorisieren wir es gegenüber den Audio-Daten, indem wir innerhalb des IP-Protokolls mit dem ‚Quality Of Service’ (QoS) arbeiten. Das mag auf den ersten Blick verwirrend klingen, aber es ist viel wichtiger, dass das System mit einem akkuraten Timing arbeitet, als dass ein Teil aus dem Sync läuft.“

Da kein System perfekt ist, ist es technisch nicht ausgeschlossen, dass ein Gerät im Netzwerk ein Datenpaket mit Clock-Daten nicht empfängt, trotz der Nutzung von QoS-Priorisierung. „Wenn ein Netzwerk nicht richtig konfiguriert ist, führt das zu Unterbrechungen im Clock-Signal. Wenn dieser Fall eintritt, sind Dante-Geräte (wie Focusrites RedNet- und Red-Interfaces) so programmiert, dass der Audio-Bereich sofort mit einem Fade-out gemuted wird. Sobald die Clock wieder vorhanden ist, geht das Gerät wieder in den aktiven Audio-Betrieb zurück.

Das ist natürlich ein Worst-Case-Szenario und dennoch ist es eine gute Lösung, verglichen mit dem Verlust der Synchronisation in einem verteilten WordClock-System. In letzterem Fall müsst man nämlich alle Geräte im gesamten System erneut synchronisieren. Das geht häufig nur an den Geräten selber mit umständlichen Master/Slave-Setup-Einstellungen. Ganz zu schweigen von den digitalen Glitches, die ein Digital-Audio-Gerät erzeugt, das die Synchronisation verloren hat.

Weitere Informationen über die Möglichkeiten, ein IP-Netzwerk für den Audio-Einsatz zu optimieren, gibt es in unserem Artikel über Netzwerksicherheit, der auch Tipps zum benötigten Netzwerk-Equipment und zur Sicherheit von Netzwerken enthält. Und währenddessen wünschen wir viel Spaß beim Umgang mit der Clock!