TS-Doctor 3.0 www.cypheros.de

Autor Thema: Demuxter SUP-Stream via OCR zu SRT  (Gelesen 10349 mal)

Cypheros

  • Administrator
  • Hero Member
  • *****
  • Beiträge: 8446
    • Cypheros Software Seite
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #30 am: Dezember 15, 2015, 23:57:47 »
OK, dann sind da schon die Optimierungen für die Tschechische Sprache aktiv.

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #31 am: Dezember 16, 2015, 15:39:05 »
Ich hoffe ihr arbeitet noch dran. Ich wäre auch gerne Beta-Tester  :)

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #32 am: Januar 26, 2016, 19:23:39 »
Heute habe ich mir Version 2.0.15 installiert und die arbeitet beim erkennen der DVB-Untertitel genauso (schlecht) wie Version xx.9
Es sind immernoch die erwähnten Fehler in der SRT drin.
 :(

Derrick

  • Hero Member
  • *****
  • Beiträge: 636
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #33 am: Januar 26, 2016, 20:14:31 »
Was erwartest du? Ne andere OCR engine?

Mam

  • Hero Member
  • *****
  • Beiträge: 3973
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #34 am: Januar 26, 2016, 20:36:01 »
Gemach, gemach  ;D

Offensichtlich ist dem Liebhaber der tschechischen Sonderzeichen gar nicht so recht klar, dass er eigentlich im falschen Forum meckert und Abhilfe erwartet.

SIE WIRD NICHT KOMMEN!

Ganz einfach, weil dieser ganze OCR Kram "hinzugeklauft" ist. Das Teil ist eine public Domain Engine, die man in eigene Projekte mit aufnehmen kann.

Und natürlich hat der große Programmierguru hier keinerlei blassen Dunst davon, wie sie funktioniert, was sie macht, und wie man ihr besseres Tschechisch beibringen könnte (na ja, das kann jeder selber machen, die Standalone Version von dem Teil hat so einen "Trainingsmodus", den kannst Du wochenlang mit tschechischen Texten anfüttern, bis es passt. Und wenn Du dann nett bist, kannst Du das Ergebnis wieder an die Community schicken und darauf hoffen, dass es in der nächsten Version mit eingebaut ist.)

Also nochmal: HIER BIST DU FALSCH!

schau hier nach, und suche nach Abhilfe

Derrick

  • Hero Member
  • *****
  • Beiträge: 636
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #35 am: Januar 26, 2016, 20:59:18 »
.ich schrieb bereits:

Es scheint mir für @Cypheros unmöglich jede Sprache fehlerfrei zu OCRen. Selbst Englisch hat genug Fehler. Entweder du machst das händisch selbst oder du findest OCR-Software, die das besser kann. Keine Ahnung, ob es die kostenfrei gibt.

..und einen Fernkursus für Cypheros, um Tschechisch zu lernen  :-*

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #36 am: Januar 27, 2016, 18:51:11 »
OK verstanden. Aber der Demuxer könnte wenigstens die richtigen Timecodes in die SUP-Datei schreiben.

Cypheros

  • Administrator
  • Hero Member
  • *****
  • Beiträge: 8446
    • Cypheros Software Seite
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #37 am: Januar 27, 2016, 21:28:26 »
Was sind die richtigen Timecodes?

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #38 am: Januar 28, 2016, 10:38:53 »
Wenn ich die demuxte (mit dem Werkzeug) SUP-Datei in Subtitle Edit einlese, steht da

1
00:00:30,000 --> 00:01:00,000

2
00:02:00,000 --> 00:02:30,000

3
00:03:30,000 --> 00:04:00,000

4
00:05:00,000 --> 00:05:30,000


was völliger Quatsch ist.
Die Timecodes, die der TSDoc beim Erstellen einer SRT (mittels OCR) erstellt, würden mir reichen.
Jetzt muss ich immer aus zwei Dateien eine bauen. Ich nehme die Timecodes von der SRT und den Text (mittels SE OCR) von der SUP.

Mam

  • Hero Member
  • *****
  • Beiträge: 3973
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #39 am: Januar 28, 2016, 16:37:20 »
in Subtitle Edit einlese, steht da

Das ist komisch, da subtitleedit (ohne Blank, oder ist das nicht dasselbe Programm?) ebenfalls die Tesseract Engine benutzt, also dieselben "Fehler" wie der Doc produzieren sollte.
Allerdings hat Subtitleedit eine GUI, mit der Du die Engine trainieren kannst, bis Dein Tschechisch funktioniert. Das Ergebnis kannst Du dann wieder in den Doc kopieren...

Derrick

  • Hero Member
  • *****
  • Beiträge: 636
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #40 am: Januar 28, 2016, 16:47:25 »
..es geht ihm um das timing nicht um OCR.

Mam

  • Hero Member
  • *****
  • Beiträge: 3973
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #41 am: Januar 28, 2016, 16:50:50 »
..es geht ihm um das timing nicht um OCR.
Nur ein Nebenschauplatz  ;D

Eigentlich gehts ihm um tschechisch...
und warum das so wenig Leute interessiert  :-*

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #42 am: Januar 28, 2016, 17:05:21 »
Richtig. SE benutzt scheinbar die selbe OCR wie TSDoc und macht ähnliche Fehler. Aber bei SE vergleicht er beim Einlesen jedes Wort mit dem Wörterbuch und ist, wie gesagt, lernfähig. Aber die Häkchen über den Buchstaben erkennt SE scheinbar besser als der Doc.

Dann geht es mir um OCR und um Timing.
Beim demuxten SUP-File stimmen die Timings überhaupt nicht, so dass ich mir die Timecodes von ProjectX oder von der SRT-(die die OCR vom DOC erstellt) nehmen muss
OCR mach ich in Zukunft wohl mit SE.
Es wäre wie gesagt schön, wenn die SUP-Datei wenigstens einigermaßen stimmige Timecodes hätte. Das erspart mir 2 weitere Arbeitschritte.

Mam

  • Hero Member
  • *****
  • Beiträge: 3973
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #43 am: Januar 28, 2016, 17:23:22 »
Richtig. SE benutzt scheinbar die selbe OCR wie TSDoc und macht ähnliche Fehler.

SE und der Doc sind IDENTISCH, kapier es doch endlich!

Sie sind gleich, arbeiten gleich und produzieren natürlich auch die gleichen Fehler.

Der einzige Unterschied der Versionen liegt im Trainingslevel.

Und in der GUI, der Doc winkt alles durch von der Engine, SE hält an und fragt Dich, wie es denn heißen sollte, wenn Unklarheiten da sind.
Du gibst dann was ein, und dieses Ergebnis wird mit in die Datei Tesseract\Tessdata\<LANGCODE>[.cube|.frak|].traineddata aufgenommen (.frak  wenn Italics angewählt wurden, .cube bei bold].

Wenn Du anschließend hingehst, und diese Dateien in dasselbe Unterverzeichnis des Docs kopierst, SO HAT ER DIE ÄNDERUNGEN auch gelernt!

(ach ja, und schön sichern, denn beim nächsten Update des Docs werden sie wieder überpinselt)

(das mit den Timecodes versteh ich nicht, bei mir lagen die noch nie weiter als 1-2s von den SRT Timecodes entfernt, also keine Ahnung, was da abgeht)

Christian

  • Full Member
  • ***
  • Beiträge: 138
  • DVB-S User
Re: Demuxter SUP-Stream via OCR zu SRT
« Antwort #44 am: Januar 28, 2016, 17:37:35 »
Bei mir sind die Timecodes einfach Schrott. Liegt vielleicht auch am Sender. Ich habe bisher nur HD Aufnahmen vom CT1 probiert und da gibts wie oben beschrieben einfach Dummycodes mit 30 Sek Abstand - ohne Sinn. (wohlgemerkt nur im Demuxerwerkzeug)

 


www.cypheros.de