Wunsch: Vergleich Audiospuren

Begonnen von hitd, Juli 20, 2019, 14:13:51

« vorheriges - nächstes »

hitd

Bei einigen öffentlich rechtlichen Sendern hat sich die "Unsitte" eingebürgert, ständig 3-4 Audiospuren zu übertragen.

Nur selten werden diese Spuren auch wirklich genutzt. Dann wird eine Bildbeschreibung für Sehbehinderte übertragen, gelegentlich auch eine Synchronisation in Fremdsprache.

Oft wollen sich die Sender den Aufwand aber nicht leisten und der Inhalt aller Audiospuren ist identisch.

Hier wäre eine Prüf- / Vergleichsfunktion (ähnlich der Werbeerkennung) sinnvoll, die Audiospuren mit identischem Inhalt erkennt.

Möglicherweise könnten auch z.B. die ersten 30 Sekunden automatisch geprüft werden ( Vollprüfung dauert wohl zu lange ), um eine Warnung hinsichtlich identischer und somit überflüssiger Audiospuren zu erzeugen.

Derzeit übernehme ich alle Audiospuren zur Kodierung in Handbrake, nur für den seltenen Fall, dass z.B. der Originalton ausgestrahlt wurde.

Edit: Rechtschreibung

Cypheros

Das ist viel schwieriger als du denkst. In Passagen, wo nicht gesprochen wird, sind Synchro und Original meist gleich. AC3 ist oft anders abgemischt als die MP2-Spur und leiser.

Wäre sehr aufwändig sowas zuverlässig zu realisieren.

hitd

Algorithmisch hatte ich gedacht, die Spur auf Mono downzumixen und quasi ein Integral über die Lautstärke zu berechnen. Die Sprach- bzw. Tonenergie sozusagen zu berechnen. Möglicherweise aufgeteilt in z.B. 20% Abschnitte der Aufzeichnung.

Die Spuren mit der Sprachbeschreibung für Sehbehinderte sollten, da neben dem Originalton auch noch die Bildbeschreibung erzählt wird, deutlich mehr "Tonenergie" enthalten.

ZitatWäre sehr aufwändig sowas zuverlässig zu realisieren.

Zuverlässig ist nicht mein Problem. Ich brauche nur eine gute Abschätzung, ob man eine Tonspur in das Endergebnis "mitnimmt" oder nicht. Grundsätzlich macht die erste Spur als Standardton Sinn. AC3 5.1 Spuren ebenso, da ich ein 5.1 Lautsprechersetup im Wohnzimmer habe. Wenn im Einzelfall die Bildbeschreibung halt mal verloren geht, ist das keine Katastrophe. Wenn vorhanden, möchte ich sie aber übernehmen, könnte mal sinnvoll sein, vielleicht erblinde ich im Alter.

Dafür sollte nur ohnehin im "Zielbereich" nach Schnitt gesucht werden. Ich zeichne mit etlichen Minuten Vor- und Nachlauf auf, da würden die "unnützen" Teile das Ergebnis eher verfälschen.

Der gleiche Algorithmus sollte auch die Erkennung von Übersetzungen ( Pressekonferenzen, State of the Union Rede des POTUS ) ermöglichen, da ist meist der Originalton drunter und der Dolmetscher redet darüber.

Vielleicht wäre der Begriff "Erkennung Bildbeschreibung" sinnhafter für die Funktion.

Eine weitere Idee wäre ein Vergleich der Stereokanäle L+R untereinander. Bei Übersetzungen bzw. Bildbeschreibungen sollte sich die Korrelation zwischen L und R ändern, da eine zusätzliche Mono Quelle hinzukommt.


www.cypheros.de