Demuxter SUP-Stream via OCR zu SRT

Begonnen von Christian, Oktober 29, 2015, 11:15:17

« vorheriges - nächstes »

Christian

#15
Ich hab nun ein neues Problem. Ich habe einen anderen Stream bekommen, (CT1 - tschechisches Fernsehen) wo die Untertitel gelb sind mit transparentem Hintergrund. Irgendwie kriegt SE da aber nicht die richtige Farbpalette (oder wie das heisst) mitgeteilt. Er sieht nur "fette" Schrift, die er nicht richtig erkennen kann. Wie teilt man SE mit, welche Farben er nehmen muss? Habs mit SUP und SUB/IDX probiert.
Hier das neue Sample: https://www.dropbox.com/s/t6dw1k59o4wnt56/20151028%202226%20-%20CT%201%20HD.ts?dl=0
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Cypheros


Christian

mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Christian

Ich habe eine Lösung gefunden. Ich demuxe die Untertitel mit TSDoc und mit ProjektX. Die SUP-Datei von TSDOC nehme ich zur OCR weil die die richtige Farbpalette mitbringt. Und die Timecodes nehme ich von dem SUP, das von PjX erstellt wurde. In SE kombiniere ich beide.
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Cypheros

Wir arbeiten gerade an einer Funktion für den TS-Doctor. Hab diese neue Funktion mal mit Deiner Testaufnahme ausprobiert.
Wie ist die Qualität dieser SRT-Untertitel?
[attachurl=1]

Christian

Ja das ist schonmal ein Anfang aber es sind doch eine Menge Fehler in deiner Datei.
Bei Item 6 steht bei euch "Stuj nStuj nebo strelím!" -  Aber "Stůj nebo střelím!" muss es heissen, doppelte Wörter

Bei Item 14 wiederholt sich auch ein Halbsatz

Dann sind tschechische Umlaute falsch. 
"(výstrel)" muss "(Výstřel)" heissen (das "r" ist falsch)
"Stuj" muss  "Stůj" heissen das "u" ist falsch
"deti" muss "děti" heissen das "e" ist falsch

die Timecodes sind schon einigermassen in Ordnung und sind leicht nachzukorrigieren.
Aber an der Texterkennung müsst ihr noch arbeiten.
Hier meine Version, erstellt mit Hilfe von PjX und der SE-OCR (obwohl ich kein Tschechisch spreche und nicht weiss ob es 100% fehlerfrei ist)
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Derrick

ZitatAber an der Texterkennung müsst ihr noch arbeiten.

..ich fühle mich zwar nicht angesprochen, aber damit wirst du leben müssen. Es scheint mir für @Cypheros unmöglich jede Sprache fehlerfrei zu OCRen. Selbst Englisch hat genug Fehler. Entweder du machst das händisch selbst oder du findest OCR-Software, die das besser kann. Keine Ahnung, ob es die kostenfrei gibt.

Djfe

@Derrick ja aber ich denke es geht ihm vor allem erstmal um die doppelten Wörter
das kann na sicher korrigieren

die Umlaute kann man abhängig vom Sprachcode im Container erkennen/bevorzugen oder eben nicht

natürlich geht sowas heute noch nicht 100%ig

@Christian
weichen die ungenauen Timecodes der Untertitel denn auch von denen der Originalaufnahme ab, oder sind die schon dort falsch?
wenn sie dort schon falsch sind, kann man sowas nur noch händisch nachbessern
dann wurde der Fehler beim Sender gemacht

andernfalls wird irgendwo noch etwas falsch erkannt

Christian

Ok, ich muss zugeben, dass die Timecodes, die vom (zukünfigten) TSDoc kommen, schon ok sind. Sie sind eigentlich synchron zum Film.
Ich hatte mich nur gewundert, dass Länge und Start/Endzeiten so ganz verschieden zu denen vom PjX sind. Bei PjX sind sie ca. 2 Sek zu früh. Aber das ist wirklich das geringste Problem, solange sie "gleichmässig" asynchron sind und leicht anpassbar durch Verschiebung.

Also ich bin mit der OCR von SE (das ja Wörterbücher zu Hilfe nimmt) erstmal zufrieden. Wenn man als Alternative noch ein zweites Programm hätte, wäre das auch nicht schlecht. Vor allem würde mir ein sauberes Demuxen der SUP schon genügen. Eins wo Timecodes und Farbpalette stimmen.
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Djfe

ich meinte eigentlich, ob die Zeiten in etwa mit denen übereinstimmen, die z.B. der VLC bei der Wiedergabe verwendet
oder ob sie sich von denen Unterscheiden

Christian

Die Anfangszeiten unterscheiden sich vielleicht um 0,5 Sekunden. Wobei die Zeiten von TSDOC besser passen.
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Christian

Ich habe nun auch die Beta 2.0,2 ausprobiert und muss sagen, dass die OCR schon ganz gut läuft. Doppelt Wörter habe ich keine mehr entdeckt. Nur das Problem mit den Sonderzeichen bleibt. Und einige Silben werden zusammengezogen, die aber gar nicht zu einem Wort gehören. Dennoch ganz gut.
Ich fände es schön (unabhängig von der OCR), wenn der Demuxer verbessert werden würde, so dass die Timecodes des SUPs einigermassen stimmen.
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Christian

Ich habe heute auf Version 2.09 "upgegradet"
Ich weiss, das steht nicht ganz oben auf eurer Entwicklungsliste aber ich gebe trotzdem meine Erfahrungen mit der DVB-Ut-OCR bekannt.

Nun bei der aktuellen Version werden "Häckchen" fast gar nicht mehr erkannt.
es heisst nun (falsch) "nej cekám" statt (wie richtig) "něj čekám"

oder

"dedo" -> "dědo"

ted'  (3 Buchstaben und ein ' )   statt   ted' (2 Buchstaben und ein Sonderzeichen)

"takjá pujdu." -> "tak já půjdu."
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Cypheros

Nutzt der TS-Doctor denn beim OCR die Tschechischen Erkennungsmuster?

Christian

nun, im Fenster steht "erkannte Sprache... cze"
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco


www.cypheros.de