Demuxter SUP-Stream via OCR zu SRT

Begonnen von Christian, Oktober 29, 2015, 11:15:17

« vorheriges - nächstes »

Cypheros

OK, dann sind da schon die Optimierungen für die Tschechische Sprache aktiv.

Christian

Ich hoffe ihr arbeitet noch dran. Ich wäre auch gerne Beta-Tester  :)
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Christian

Heute habe ich mir Version 2.0.15 installiert und die arbeitet beim erkennen der DVB-Untertitel genauso (schlecht) wie Version xx.9
Es sind immernoch die erwähnten Fehler in der SRT drin.
:(
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Derrick

Was erwartest du? Ne andere OCR engine?

Mam

Gemach, gemach  ;D

Offensichtlich ist dem Liebhaber der tschechischen Sonderzeichen gar nicht so recht klar, dass er eigentlich im falschen Forum meckert und Abhilfe erwartet.

SIE WIRD NICHT KOMMEN!

Ganz einfach, weil dieser ganze OCR Kram "hinzugeklauft" ist. Das Teil ist eine public Domain Engine, die man in eigene Projekte mit aufnehmen kann.

Und natürlich hat der große Programmierguru hier keinerlei blassen Dunst davon, wie sie funktioniert, was sie macht, und wie man ihr besseres Tschechisch beibringen könnte (na ja, das kann jeder selber machen, die Standalone Version von dem Teil hat so einen "Trainingsmodus", den kannst Du wochenlang mit tschechischen Texten anfüttern, bis es passt. Und wenn Du dann nett bist, kannst Du das Ergebnis wieder an die Community schicken und darauf hoffen, dass es in der nächsten Version mit eingebaut ist.)

Also nochmal: HIER BIST DU FALSCH!

schau hier nach, und suche nach Abhilfe

Derrick

.ich schrieb bereits:

Zitat von: Derrick am Oktober 31, 2015, 12:41:32
Es scheint mir für @Cypheros unmöglich jede Sprache fehlerfrei zu OCRen. Selbst Englisch hat genug Fehler. Entweder du machst das händisch selbst oder du findest OCR-Software, die das besser kann. Keine Ahnung, ob es die kostenfrei gibt.

..und einen Fernkursus für Cypheros, um Tschechisch zu lernen  :-*

Christian

OK verstanden. Aber der Demuxer könnte wenigstens die richtigen Timecodes in die SUP-Datei schreiben.
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Cypheros


Christian

Wenn ich die demuxte (mit dem Werkzeug) SUP-Datei in Subtitle Edit einlese, steht da

1
00:00:30,000 --> 00:01:00,000

2
00:02:00,000 --> 00:02:30,000

3
00:03:30,000 --> 00:04:00,000

4
00:05:00,000 --> 00:05:30,000


was völliger Quatsch ist.
Die Timecodes, die der TSDoc beim Erstellen einer SRT (mittels OCR) erstellt, würden mir reichen.
Jetzt muss ich immer aus zwei Dateien eine bauen. Ich nehme die Timecodes von der SRT und den Text (mittels SE OCR) von der SUP.
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Mam

Zitat von: Christian am Januar 28, 2016, 10:38:53
in Subtitle Edit einlese, steht da

Das ist komisch, da subtitleedit (ohne Blank, oder ist das nicht dasselbe Programm?) ebenfalls die Tesseract Engine benutzt, also dieselben "Fehler" wie der Doc produzieren sollte.
Allerdings hat Subtitleedit eine GUI, mit der Du die Engine trainieren kannst, bis Dein Tschechisch funktioniert. Das Ergebnis kannst Du dann wieder in den Doc kopieren...

Derrick

..es geht ihm um das timing nicht um OCR.

Mam

Zitat von: Derrick am Januar 28, 2016, 16:47:25
..es geht ihm um das timing nicht um OCR.
Nur ein Nebenschauplatz  ;D

Eigentlich gehts ihm um tschechisch...
und warum das so wenig Leute interessiert  :-*

Christian

Richtig. SE benutzt scheinbar die selbe OCR wie TSDoc und macht ähnliche Fehler. Aber bei SE vergleicht er beim Einlesen jedes Wort mit dem Wörterbuch und ist, wie gesagt, lernfähig. Aber die Häkchen über den Buchstaben erkennt SE scheinbar besser als der Doc.

Dann geht es mir um OCR und um Timing.
Beim demuxten SUP-File stimmen die Timings überhaupt nicht, so dass ich mir die Timecodes von ProjectX oder von der SRT-(die die OCR vom DOC erstellt) nehmen muss
OCR mach ich in Zukunft wohl mit SE.
Es wäre wie gesagt schön, wenn die SUP-Datei wenigstens einigermaßen stimmige Timecodes hätte. Das erspart mir 2 weitere Arbeitschritte.
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Mam

Zitat von: Christian am Januar 28, 2016, 17:05:21
Richtig. SE benutzt scheinbar die selbe OCR wie TSDoc und macht ähnliche Fehler.

SE und der Doc sind IDENTISCH, kapier es doch endlich!

Sie sind gleich, arbeiten gleich und produzieren natürlich auch die gleichen Fehler.

Der einzige Unterschied der Versionen liegt im Trainingslevel.

Und in der GUI, der Doc winkt alles durch von der Engine, SE hält an und fragt Dich, wie es denn heißen sollte, wenn Unklarheiten da sind.
Du gibst dann was ein, und dieses Ergebnis wird mit in die Datei Tesseract\Tessdata\<LANGCODE>[.cube|.frak|].traineddata aufgenommen (.frak  wenn Italics angewählt wurden, .cube bei bold].

Wenn Du anschließend hingehst, und diese Dateien in dasselbe Unterverzeichnis des Docs kopierst, SO HAT ER DIE ÄNDERUNGEN auch gelernt!

(ach ja, und schön sichern, denn beim nächsten Update des Docs werden sie wieder überpinselt)

(das mit den Timecodes versteh ich nicht, bei mir lagen die noch nie weiter als 1-2s von den SRT Timecodes entfernt, also keine Ahnung, was da abgeht)

Christian

Bei mir sind die Timecodes einfach Schrott. Liegt vielleicht auch am Sender. Ich habe bisher nur HD Aufnahmen vom CT1 probiert und da gibts wie oben beschrieben einfach Dummycodes mit 30 Sek Abstand - ohne Sinn. (wohlgemerkt nur im Demuxerwerkzeug)
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco


www.cypheros.de