arte subtitle extraction funktioniert seit 4.8.2015 nicht mehr

Begonnen von PePo, August 06, 2015, 20:39:04

« vorheriges - nächstes »

Cypheros

Zitat..hat imho aber für den TSDoctor keinerlei Relevanz.

Doch, der TS-Doctor erkennt Paritätsfehler. Bei mehr als 2 Paritätsfehlern pro Zeile wird die Teletext-Zeile ignoriert.

Mam

Zitat von: Cypheros am August 11, 2015, 00:29:12
Zitat..hat imho aber für den TSDoctor keinerlei Relevanz.

Doch, der TS-Doctor erkennt Paritätsfehler. Bei mehr als 2 Paritätsfehlern pro Zeile wird die Teletext-Zeile ignoriert.

Dann pack doch mal die weggeschmissene Zeil(en) ins Log, damit wir sehen können, was dem Doc da so aufstösst...
Übertragungsfehler können es ja nun nicht sein, also entweder schicken die Sender da was "Unerlaubtes" (wobei es ja gar keine gültige Norm bei HD Sendern gibt, insofern ist alles erlaubt, was gefällt), oder die Parität ist gar keine, sondern z.B. einem erweiterten Zeichensatz gewichen...

Also bitte die Fehler protokollieren, und/oder die Paritätsprüfung abschaltbar machen...  :-*

Derrick

Ich frage mich auch, was das soll. Das Teletextsystem ist ein Relikt aus analogen Zeiten. Da machte es auch Sinn, die Daten noch extra zu schützen. Eine Korrekturmöglichkeit über Hamming gibt es sonst nirgends. Wenn Paritätsfehler drin sind, sind die wohl einem defekten Teletextgenerator bei Arte zuzuordnen, oder es sind gar keine. Den Nutzen dieser Redundanz haben höchstens noch analoge Kabelgucker oder Leute, die sich noch mit altem Scart-Zeuchs rumschlagen. Früher war ich auch noch stolz, wenn ich bei S-VHS Aufnahmen noch den Teletext - leider nie ganz fehlerfrei - lesen konnte ;) Hier scheint es mir nur zur Panikmache geeignet.. 

PePo

ZitatIch frage mich auch, was das soll. Das Teletextsystem ist ein Relikt aus analogen Zeiten

Das stimmt sicher. Jedoch scheint der Teletext Stream der einzige zu sein, mit dem die meisten Systeme was anfangen können. Denn es nützt wenig, wenn zwar DVB-Subtitle Streams geliefert werden, die aber nicht von z.B. VLC, Elgato, DVBViewer oder auch unserem "Doctor" ausgewertet werden. Ich würd' gern mal ein Programm sehen, dass die 3 DVB-Subtitlestreams von Arte sichtbar macht - oder gibt es sowas und ist unter meinem Radar durchgerutscht?

Es gibt viele europäische Sender, die Untertitel als Teletext stream senden, wie etwa RAI 1, RAI 2, RAI 3, aber auch ARD, ZDF, ORF, Moscow TV etc.

In den meisten Aufnahmen dieser Sender werden die TTX Streams von TSDOC perfekt erkannt und in .srt files geschrieben. Nur arte macht da eine auffällige Ausnahme.

Warum ich auf diesem "Relikt aus alten Zeiten" so herumreite: wer je, auch bei guten Sprachkenntnissen, versucht hat, einem italienischen Sprecher mit Dialekt und Hochgeschwindigkeit, zu folgen (ebenso Französisch oder Spanisch), wird mir bestätigen, dass Subtitles mehr als hilfreich sind, obwohl sie fast nie den Originaltext, sondern immer eine Verkürzung bringen.

Mam

#49
Na ja, es ist ja nun einfach erklärbar, warum die Programme lieber den Teletext mögen, als die doofen DVB-UT.
Der Aufwand um den Text zu extrahieren ist nun um Längen geringer, als auf die (grössenabhängigen!) Grafiken einen komplizierten OCR loszulassen, der dann auch noch einige von Fonts und verschiedene Zeichensätze beherrscht und auch bei Attributen wie italics oder bold nicht gleich das Handtuch wirft.

@PePo: freu Dich nicht zu früh auf die vielen DVB-UT Spuren bei Arte  ;D sie sind zu 80-90% einfach nur "vorhanden", aber leer! Arte hat sich eben für "fixed streams" entschlossen und vermeidet damit unangenehme Seiteneffekte bei Formatumschaltungen und/oder Änderungen im Multiplex durch Hinzufügen oder Wegnahme von Streams. Wir denken noch mit Schaudern an die "alten Zeiten" beim ORF zurück, wo sie meist die Dolby Digital 5.1 Umschaltung versaut haben und mittem im Film die Formate panikartig hin- und hergeschaltet haben und somit jede Aufnahme versauten. Seit die IMMER 5.1 senden, ist Ruhe (ich geh mal davon aus, die Techniker haben vor dem Bug kapituliert und wählten das kleinere Übel).

Ich bin inzwischen eigentlich fest davon überzeugt, dass die Parity Errors nicht wirklich vorhanden sind, sondern etnweder dem übereifrigen Doc entstammen, oder vom Sender (mangels gültiger Norm) produziert werden. Die Ursache ist letztendlich egal, solange sie nicht STÖREN!

Da Scheffe aber meint, bei mehr als einem Fehler in einer Zeile die ganze Zeile wegschmeissen zu müssen, darf er zumindest beweisen, dass er nicht die Fehlerursache ist, bzw. soll alternativ die Überprüfung abschaltbar gestalten, falls jemand auf die Zeilen angewiesen ist.
Als Kür könnte man sogar die Fehler im SRT File markieren, z.B. mit "diese <FEHLER!>Z</FEHLER!>eile enth#alt einen Fehler!" (ist aber nicht wirklich nötig, ich gehe mal davon aus, dass man die Fehler sowieso erkennen könnte, mit der Markierung käme man nur mit wenig Arbeit an die Stellen ran).

Ach ja, nochwas für PePo: Da Du ja auch 13°Ost hast, sollte da ja auch noch ein französischer Arte HD sein (oder gibts den nur verschlüsselt? keine Ahnung). Da würde mich interessieren, ob der auch die gelben deutschen burned-in Titles hat. Die stören mich nämlich recht häufig und ich würde gerne den Film ohne die Dinger aufnehmen.

Derrick

Zitat von: PePo am August 11, 2015, 10:02:05
ZitatIch frage mich auch, was das soll. Das Teletextsystem ist ein Relikt aus analogen Zeiten

Das stimmt sicher. Jedoch scheint der Teletext Stream der einzige zu sein, mit dem die meisten Systeme was anfangen können.
Da hast du mich falsch verstanden. Ich möchte Teletext keineswegs abschaffen. Damit kann z.B. bei alten Aufnahmen schön sehen, wie die meteorologische und politische Wetterlage z.Z. der Aufnahme war, was ja auch schon früher mit SVHS funktionierte  ;D

Der Thread ist etwas aus dem Ruder gelaufen. Du suchst deine Arte-Untertitel - hab heute zum 1. mal "Reisen für Genießer" von Arte HD, 19E aufgenommen und da waren sie auf 888 drin - und hast dabei schlafende Hunde auf die Fährte der parity errors geführt (99 in meiner Aufnahme)  :o

ZitatAch ja, nochwas für PePo: Da Du ja auch 13°Ost hast, sollte da ja auch noch ein französischer Arte HD sein (oder gibts den nur verschlüsselt? keine Ahnung). Da würde mich interessieren, ob der auch die gelben deutschen burned-in Titles hat. Die stören mich nämlich recht häufig und ich würde gerne den Film ohne die Dinger aufnehmen.

Was für eine Frage. Natürlich sind die da nicht drin, sondern gelbe französische Untertitel  8)

Hier habe ich übrigens noch was zu den parities gefunden.

Do not drop teletext lines with parity errors




PePo

Ich versuch jetzt mal, die von Mama gestellten Aufgaben darzustellen.
1. Aufnahme eines unsäglichen Films "Enemy Mine". (Das war wohl ein Teil der Strafe, dass ich Macs verwende!)

TSdoc extrahiert den .srt File der TTX Seiten 152. Tsdoc findet auch noch eine weitere TTX Seite im Stream, extrahiert die aber nicht.

Auffallend ist die Anzahl der Paritätsfehler - 384 an der Zahl.

Nach Anwendung von Handbrake habe ich den Film komplett durchgesehen, überall lippensynchron und keine sichtbaren Fehler.

Ich füge eine kürzende Version des TSDoc Log bei, damit es beim Lesen nicht so langweilig wird.

Ich setzte in meinen nächsten Beitrag fort, da ich den Timeouts nicht so recht traue!

PePo

Aufgabe 2 und 3:

Erster Film von Peace'n Pop:
gekürztes Log im Anhang

Das Untertitel Ergebnis so klein, dass ich es hier anfüge. Bis auf das der Sänger - ich glaub Bob Dylon - eine e-Mundharmonika verlangt, ist nicht viel mehr da!

1
00:00:10,120 --> 00:00:13,060
S/T

2
00:25:51,540 --> 00:25:52,820
Il va prendre
une guitare acoustique.

3
00:26:26,640 --> 00:26:28,920
Quelqu'un a un harmonica en mi ?

4
00:26:30,880 --> 00:26:33,000
Vous avez un harmonica en mi ?

5
00:26:34,420 --> 00:26:35,840
Envoyez-le ici !

6
00:26:38,980 --> 00:26:39,980
Merci beaucoup.

7
00:52:08,280 --> 00:52:10,880
Version française :
Till Zimmermann
pour INNERVISION

8
00:52:11,220 --> 00:52:13,320
Direction artistique :
Christophe Palz

9
00:52:13,520 --> 00:52:15,440
Avec les voix de :
Frantz Confiac
Christine Bruneau

10
00:52:15,600 --> 00:52:17,480
Isabelle Lux
Jean-Philippe Meyer
Nicolas Mossard

11
00:52:17,700 --> 00:52:19,440
Maxime Pacaud
Jack Reinhardt
Florian Wormser

12
00:52:19,600 --> 00:52:20,940
Mixage :
Frédéric Spaeth

13
00:52:21,360 --> 00:52:23,500
Pour ARTE G.E.I.E. :
Cécile Choisne

Der zweite Film:

log siehe Anhang

Die unter Titel sind spärlich - fangen erst nach 8 Minuten an - aber synchron und ohne sichtbare Fehler.

Ich setzte noch mit der Analyse eines dritten Films fort, der die interessantesten Ergebnis erbrachte. Haltet bitte durch!




Derrick

Noch mal, vergiss die Paritätsfehler! Dass der Film Untertitel auf 152 hat, wurde bereits festgestellt. Bei Arte HD werden 150, 151, 152, 888 und 889 immer als potentielle Untertitelseiten gekennzeichnet. Wenn was drin ist, wird es vom DOC auch gefunden :)

Mam

Zitat von: PePo am August 11, 2015, 14:33:19
1. Aufnahme eines unsäglichen Films "Enemy Mine". (Das war wohl ein Teil der Strafe, dass ich Macs verwende!)
Nein, ich dachte dabei eher an die köstlichen Gaumenfreuden, die den Abgestürzten auf dem unwirtlichen Planeten offeriert werden. Grüne Glibbereier, zappelnde Riesenmehlwürmer und anderes Getier, dass die Leute heute so gerne im Dschungelcamp benutzen.

Ausserdem dachte ich recht pragmatisch daran, dass die Chance auf vorhanderen UT bei einem frisch restaurierten und aufgehübschten Spielfilm deutlich größer wäre, als an sparsam produzierten Dokus. Und so war es ja auch.

Also langsam verdichtet sich doch der Verdacht, dass ARTE sich einen feuchten Kehrricht um irgendwelche Paritäten schert, und deshalb der wohlgemeinte Check des Docs kontraproduktiv ist. Stellt er im Normalfalle kein wirkliches Problem dar, so kann es doch passieren, dass sich die "Fehler" innerhalb einer Zeile aufsummieren und den Doc zu weitragenden Fehlreaktionen zu reizen.


Mam

Zitat von: PePo am August 11, 2015, 15:06:35
Erster Film von Peace'n Pop:
gekürztes Log im Anhang
Das Untertitel Ergebnis so klein, dass ich es hier anfüge. Bis auf das der Sänger - ich glaub Bob Dylon - eine e-Mundharmonika verlangt, ist nicht viel mehr da!

DAS finde ich sehr lustig. Bei mir hat sich der Doc bei Teil 1 nicht genötigt gesehen, IRGENDWAS an UT zu extrahieren.

Er scheint zwar auf irgendwas gestossen zu sein ("Teletext scan: Lines scanned: 26664 / Parity errors: 240"), hat aber NICHTS gespeichert...

Nicht wirklich deterministisch, oder?

(kann natürlich auch sein, dass hier der Faktor Mac und der Weisswurstaequator eine Rolle spielen...)

PePo

Verflucht, jetzt hat mir das Forum System schon wieder reingepfuscht. Man muss offensichtlich Blitzbeiträge schreiben, sonst erwischt es einen!

Ja, jetzt der Arte Film aus "Reisen für Genießer" Wien.
Parity on/off hat keine Wirkung.
Ich hab mal mit ein mit ein bißchen Regular Expressions die meisten Fehler extrahiert und im Anhang in die errors Datei geschrieben.
Wenn man nun den 889 Stream ansieht, sieht man, dass dessen Inhalt weitgehend mit den Fehlern aus 888 übereinstimmt.

Digitales Übersprechen oder simplerweise ein BUG?

PePo

Ja und meine Anhänge sind ins Nirwana gegangen. Also - Gott geb's, diese jetzt!

PePo

Erstens danke ich allen, die sich an dieser Suche beteiligt haben (wahrscheinlich deshalb hat es vor kurzem in arte "Auf der Suche nach der verlorenen Zeit" gespielt).

Ich formuliere folgende Hypothesen:

1. Mein "Fehler" scheint ein Endpunkt - Problem zu sein, entweder im TTX Generator von Arte oder im TSDoc oder in beiden. Die Zwischenstufen wie ts- Stream Erzeugung, Satellitenübertragung, ts- Streaming Empfang und Abspeicherung lokal scheinen keinen Fehlerbeitrag zu liefern, egal, welches Empfangssystem man nutzt (ich selbst habe drei verschiedene getestet und die von unzähligen Beiträgen).

2. Alle verfügbaren weiteren Hilfsmittel und Programme - sei es unter Windoze, Mac OSX oder Linux(Ubuntu-Debian) - führen zu keiner besseren Analyse als es TSDoc liefert - Kompliment an den Autor!

3. Das Handling der TTX Streams in TSDoc ist mir bis zum Ende nicht ganz klar geworden - was passiert bei Parity Errors wirklich, werden die X.26 Substitutions ausgewertet, usw. HIER KANN NUR DER AUTOR WEITERHELFEN, um seine Algorithmen zu erläutern oder, wie schon vorgeschlagen, das log erweitern. Ich würd' da gerne - ohne polemisch zu werden - hinzufügen: Es lebe Free Software - free like free beer!

4. Wer kann und will DVB-Subtitles in sein Entwicklungspaket aufnehmen und macht das überhaupt Sinn?

5. Burnt-in Subtitles sind Schicksal !

Nochmals Danke an Alle, ich glaub, viel weiter werden wir nicht kommen, wir können vermutlich noch und noch pathologische Fälle sammeln, aber daraus wird nur bei Ärzten ein Theorie!

Derrick

Zitat3. Das Handling der TTX Streams in TSDoc ist mir bis zum Ende nicht ganz klar geworden - was passiert bei Parity Errors wirklich, werden die X.26 Substitutions ausgewertet, usw. HIER KANN NUR DER AUTOR WEITERHELFEN, um seine Algorithmen zu erläutern oder, wie schon vorgeschlagen, das log erweitern. Ich würd' da gerne - ohne polemisch zu werden - hinzufügen: Es lebe Free Software - free like free beer!
Vielleicht weiß er das ja selber nicht, wenn er gar nicht AUTOR dieser Teletextroutine ist :-X


www.cypheros.de