TS-Doctor 3.0 www.cypheros.de

Autor Thema: Demuxter SUP-Stream via OCR zu SRT  (Gelesen 10350 mal)

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #15 am: Oktober 30, 2015, 20:46:06 »
Ich hab nun ein neues Problem. Ich habe einen anderen Stream bekommen, (CT1 - tschechisches Fernsehen) wo die Untertitel gelb sind mit transparentem Hintergrund. Irgendwie kriegt SE da aber nicht die richtige Farbpalette (oder wie das heisst) mitgeteilt. Er sieht nur "fette" Schrift, die er nicht richtig erkennen kann. Wie teilt man SE mit, welche Farben er nehmen muss? Habs mit SUP und SUB/IDX probiert.
Hier das neue Sample: https://www.dropbox.com/s/t6dw1k59o4wnt56/20151028%202226%20-%20CT%201%20HD.ts?dl=0
« Letzte Änderung: Oktober 31, 2015, 10:04:14 von Christian »

Cypheros

  • Administrator
  • Hero Member
  • *****
  • Beiträge: 8446
    • Cypheros Software Seite
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #16 am: Oktober 30, 2015, 23:32:34 »
Link funktioniert nicht.

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #17 am: Oktober 31, 2015, 10:04:36 »
Jetzt müsste er gehen.

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #18 am: Oktober 31, 2015, 10:26:29 »
Ich habe eine Lösung gefunden. Ich demuxe die Untertitel mit TSDoc und mit ProjektX. Die SUP-Datei von TSDOC nehme ich zur OCR weil die die richtige Farbpalette mitbringt. Und die Timecodes nehme ich von dem SUP, das von PjX erstellt wurde. In SE kombiniere ich beide.

Cypheros

  • Administrator
  • Hero Member
  • *****
  • Beiträge: 8446
    • Cypheros Software Seite
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #19 am: Oktober 31, 2015, 11:53:54 »
Wir arbeiten gerade an einer Funktion für den TS-Doctor. Hab diese neue Funktion mal mit Deiner Testaufnahme ausprobiert.
Wie ist die Qualität dieser SRT-Untertitel?
[attachurl=1]

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #20 am: Oktober 31, 2015, 12:31:49 »
Ja das ist schonmal ein Anfang aber es sind doch eine Menge Fehler in deiner Datei.
Bei Item 6 steht bei euch "Stuj nStuj nebo strelím!" -  Aber "Stůj nebo střelím!" muss es heissen, doppelte Wörter

Bei Item 14 wiederholt sich auch ein Halbsatz

Dann sind tschechische Umlaute falsch. 
"(výstrel)" muss "(Výstřel)" heissen (das "r" ist falsch)
"Stuj" muss  "Stůj" heissen das "u" ist falsch
"deti" muss "děti" heissen das "e" ist falsch

die Timecodes sind schon einigermassen in Ordnung und sind leicht nachzukorrigieren.
Aber an der Texterkennung müsst ihr noch arbeiten.
Hier meine Version, erstellt mit Hilfe von PjX und der SE-OCR (obwohl ich kein Tschechisch spreche und nicht weiss ob es 100% fehlerfrei ist)

Derrick

  • Hero Member
  • *****
  • Beiträge: 636
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #21 am: Oktober 31, 2015, 12:41:32 »
Zitat
Aber an der Texterkennung müsst ihr noch arbeiten.

..ich fühle mich zwar nicht angesprochen, aber damit wirst du leben müssen. Es scheint mir für @Cypheros unmöglich jede Sprache fehlerfrei zu OCRen. Selbst Englisch hat genug Fehler. Entweder du machst das händisch selbst oder du findest OCR-Software, die das besser kann. Keine Ahnung, ob es die kostenfrei gibt.

Djfe

  • Hero Member
  • *****
  • Beiträge: 2315
  • DVB User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #22 am: Oktober 31, 2015, 13:20:01 »
@Derrick ja aber ich denke es geht ihm vor allem erstmal um die doppelten Wörter
das kann na sicher korrigieren

die Umlaute kann man abhängig vom Sprachcode im Container erkennen/bevorzugen oder eben nicht

natürlich geht sowas heute noch nicht 100%ig

@Christian
weichen die ungenauen Timecodes der Untertitel denn auch von denen der Originalaufnahme ab, oder sind die schon dort falsch?
wenn sie dort schon falsch sind, kann man sowas nur noch händisch nachbessern
dann wurde der Fehler beim Sender gemacht

andernfalls wird irgendwo noch etwas falsch erkannt

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #23 am: Oktober 31, 2015, 13:34:24 »
Ok, ich muss zugeben, dass die Timecodes, die vom (zukünfigten) TSDoc kommen, schon ok sind. Sie sind eigentlich synchron zum Film.
Ich hatte mich nur gewundert, dass Länge und Start/Endzeiten so ganz verschieden zu denen vom PjX sind. Bei PjX sind sie ca. 2 Sek zu früh. Aber das ist wirklich das geringste Problem, solange sie "gleichmässig" asynchron sind und leicht anpassbar durch Verschiebung.

Also ich bin mit der OCR von SE (das ja Wörterbücher zu Hilfe nimmt) erstmal zufrieden. Wenn man als Alternative noch ein zweites Programm hätte, wäre das auch nicht schlecht. Vor allem würde mir ein sauberes Demuxen der SUP schon genügen. Eins wo Timecodes und Farbpalette stimmen.

Djfe

  • Hero Member
  • *****
  • Beiträge: 2315
  • DVB User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #24 am: Oktober 31, 2015, 13:45:56 »
ich meinte eigentlich, ob die Zeiten in etwa mit denen übereinstimmen, die z.B. der VLC bei der Wiedergabe verwendet
oder ob sie sich von denen Unterscheiden

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #25 am: Oktober 31, 2015, 14:14:11 »
Die Anfangszeiten unterscheiden sich vielleicht um 0,5 Sekunden. Wobei die Zeiten von TSDOC besser passen.

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #26 am: November 09, 2015, 20:09:29 »
Ich habe nun auch die Beta 2.0,2 ausprobiert und muss sagen, dass die OCR schon ganz gut läuft. Doppelt Wörter habe ich keine mehr entdeckt. Nur das Problem mit den Sonderzeichen bleibt. Und einige Silben werden zusammengezogen, die aber gar nicht zu einem Wort gehören. Dennoch ganz gut.
Ich fände es schön (unabhängig von der OCR), wenn der Demuxer verbessert werden würde, so dass die Timecodes des SUPs einigermassen stimmen.

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #27 am: Dezember 11, 2015, 18:31:37 »
Ich habe heute auf Version 2.09 "upgegradet"
Ich weiss, das steht nicht ganz oben auf eurer Entwicklungsliste aber ich gebe trotzdem meine Erfahrungen mit der DVB-Ut-OCR bekannt.

Nun bei der aktuellen Version werden "Häckchen" fast gar nicht mehr erkannt.
es heisst nun (falsch) "nej cekám" statt (wie richtig) "něj čekám"

oder

"dedo" -> "dědo"

 ted'  (3 Buchstaben und ein ' )   statt   ted' (2 Buchstaben und ein Sonderzeichen)

"takjá pujdu." -> "tak já půjdu."

Cypheros

  • Administrator
  • Hero Member
  • *****
  • Beiträge: 8446
    • Cypheros Software Seite
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #28 am: Dezember 11, 2015, 23:41:55 »
Nutzt der TS-Doctor denn beim OCR die Tschechischen Erkennungsmuster?
 

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #29 am: Dezember 12, 2015, 09:38:25 »
nun, im Fenster steht "erkannte Sprache... cze"

 


www.cypheros.de