06.06.2026 | Lesezeit: ca. 5 Minuten

Audiodeskription — Bilder für Video hörbar machen

Wenn das Bild gesprochen wird

Filmklappe mit Play-Symbol, Schallwelle und ein Auge mit Audiosymbol als Sinnbild für Audiodeskription

Du hast Dein Video mit Untertiteln versehen und denkst, damit ist es barrierefrei. Für gehörlose Zuschauer stimmt das auch. Wer aber das Bild nicht sieht, hört zwar jeden Dialog und versteht trotzdem die halbe Geschichte nicht.

Ein Sprecher deutet stumm auf eine Stelle im Diagramm, eine Figur reagiert mit einem Blick, eine Einblendung zeigt eine Zahl. All das passiert ohne ein einziges gesprochenes Wort. Genau diese stumme Bildinformation macht die Audiodeskription hörbar, und sie ist die zweite Hälfte der Barrierefreiheit beim Video.

Was Audiodeskription beschreibt

Audiodeskription ist eine gesprochene Beschreibung des visuell Wichtigen, eingefügt in die Pausen zwischen den Dialogen. Eine ruhige Stimme erzählt knapp, was gerade zu sehen ist, ohne den eigentlichen Ton zu überdecken. So entsteht eine zweite Tonspur, die das Bild in Sprache übersetzt.

Beschrieben wird nur, was für das Verständnis zählt. Wer den Raum betritt, welche Geste eine Reaktion auslöst, welcher Text eingeblendet wird. Die Farbe der Vorhänge bleibt außen vor, der Wechsel zum nächsten Schauplatz nicht. Eine gute Beschreibung trifft diese Auswahl, statt jedes Detail aufzuzählen.

Damit gehört die Audiodeskription zum Prinzip Wahrnehmbar aus den vier WCAG-Grundlagen. Inhalte sollen sich mit verschiedenen Sinnen erfassen lassen. Was das Auge im Video sieht, muss das Ohr hören können.

Warum Untertitel allein nicht genügen

Untertitel und Audiodeskription lösen zwei gegensätzliche Aufgaben. Untertitel machen den Ton lesbar, für Menschen, die nicht hören. Audiodeskription macht das Bild hörbar, für Menschen, die nicht sehen. Beide gehören zu einem wirklich zugänglichen Video, und keines ersetzt das andere.

Das wird oft verwechselt, weil beide unter dem Stichwort Barrierefreiheit laufen. Wie die Tonspur als Text zugänglich wird, beschreibt der Beitrag, in dem Untertitel und Transkripte das Gegenstück liefern. Hier geht es um den umgekehrten Weg, vom Bild zum gesprochenen Wort.

Der Test ist einfach. Schließ beim nächsten eigenen Video die Augen und hör nur zu. Verstehst Du allein über den Ton, was passiert, brauchst Du wenig oder keine Beschreibung. Verlierst Du den Faden, sobald wichtige Dinge nur gezeigt werden, fehlt genau die Tonspur, um die es hier geht.

Wann Du Audiodeskription wirklich brauchst

Nicht jedes Video braucht eine eigene Beschreibungsspur. Entscheidend ist, ob im Bild Information steckt, die der Ton nicht ohnehin nennt. Ein Talking-Head-Video, in dem eine Person frontal in die Kamera spricht, trägt seine ganze Aussage über die Stimme. Da gibt es nichts zu beschreiben.

Sobald das Bild eigene Information liefert, ändert sich das. Ein Erklärfilm mit Beschriftungen, ein Produktvideo mit stummen Vorführungen, eine Anleitung, in der jemand etwas zeigt statt es zu sagen. Überall dort verlieren blinde Zuschauer den entscheidenden Teil, wenn niemand das Gezeigte ausspricht.

Die offizielle Schwelle dafür steckt in den WCAG. Sie verlangen eine Beschreibung immer dann, wenn die Bildinformation für das Verständnis nötig ist und nicht schon im Ton vorkommt. Für die Praxis hilft eine einfache Frage, die jeden Sonderfall abdeckt.

  • Reiner Ton-Inhalt: Die Aussage steckt vollständig in Sprache und Geräusch. Keine Beschreibung nötig.
  • Bild stützt nur: Das Bild illustriert, was ohnehin gesagt wird. Eine knappe Ergänzung reicht oder es genügt ein Transkript.
  • Bild trägt eigene Aussage: Ohne das Gesehene fehlt ein Stück der Handlung. Hier ist eine Audiodeskription Pflicht.

Wie eine Audiodeskription entsteht

Am Anfang steht ein Skript. Jemand sieht das Video durch und schreibt für jede stille Stelle einen kurzen Beschreibungssatz, samt der Sekunde, an der er fällt. Diese Stelle muss in eine Sprechpause passen, ohne den Originalton zu zerschneiden. Das Kürzen auf das Wesentliche ist die eigentliche Arbeit.

Danach wird der Text aufgenommen. Eine deutlich vom Originalton unterscheidbare Stimme spricht die Beschreibungen ein, ruhig und ohne Wertung. Diese Aufnahme legt sich als zusätzliche Tonspur über das Video, abrufbar für alle, die sie brauchen. Wer keine Beschreibung möchte, schaltet sie weg.

Den Sprecherpart kannst Du an ein spezialisiertes Studio geben oder ihn günstig mit einer synthetischen Stimme abdecken. Künstliche Sprachausgabe klingt heute natürlich genug für sachliche Erklärfilme. Bei Imagefilmen mit Atmosphäre lohnt sich dagegen eine echte Stimme, weil der Tonfall mitspielt.

Wenn die Pausen nicht reichen

Manche Videos lassen kaum Luft. Ein dichter Erklärfilm redet fast durchgehend, und in den knappen Atempausen ist keine Zeit, das Gezeigte zu beschreiben. Für diesen Fall gibt es die erweiterte Audiodeskription.

Dabei hält das Video an einer wichtigen Stelle kurz an. Die Beschreibung läuft, dann startet der Film weiter. Das verlängert die Laufzeit, sichert aber, dass keine Information unter den Tisch fällt. Diese Variante verlangt mehr Aufwand und greift in den Ablauf ein, deshalb planst Du sie am besten gleich beim Schnitt mit ein.

Oft lässt sich der Druck schon vorher senken. Ein ruhigerer Sprechrhythmus im Originalton schafft von selbst Lücken für die Beschreibung. Wer Barrierefreiheit früh mitdenkt, spart sich später die aufwendige erweiterte Variante.

Was es realistisch kostet

Der Aufwand hängt vor allem an der Länge und an der Bilddichte. Ein zweiminütiger Erklärfilm mit wenigen klaren Szenen ist in überschaubarer Zeit beschrieben. Ein langes Video voller stummer Vorführungen verlangt deutlich mehr Skriptarbeit. Die Aufnahme selbst fällt dagegen kaum ins Gewicht.

Für kleine Budgets gibt es einen pragmatischen Weg. Statt einer zweiten Tonspur stellst Du eine ausführliche Textbeschreibung des Videos daneben, die das Gezeigte schildert. Das ersetzt keine professionelle Audiodeskription, deckt aber die wichtigste Information ab und kostet nur Schreibzeit.

Das gleiche Denken hilft bei statischen Inhalten. Wie Du komplexe Bilder beschreibst, etwa Diagramme oder Infografiken, folgt derselben Logik, nur ohne den Faktor Zeit. Wer das einmal eingeübt hat, tut sich auch beim Video leichter.

Fazit

Untertitel öffnen Dein Video für Menschen, die nicht hören. Die Audiodeskription öffnet es für Menschen, die nicht sehen. Erst beide zusammen machen aus einem Video ein Medium, dem wirklich jeder folgen kann.

Geh Dein wichtigstes Video einmal mit geschlossenen Augen durch und notiere, wo Du den Faden verlierst. Genau dort gehört eine Beschreibung hin. Beim nächsten Filmprojekt planst Du die Tonspur am besten von vornherein mit, dann bleibt sie ein kleiner Schritt statt einer späten Nachrüstung.