Tschechische Buchstaben werden nicht ganz richtig erkannt

Begonnen von Christian, September 23, 2014, 13:01:21

« vorheriges - nächstes »

Christian

Hallo,

ich extrahiere Untertitel aus Aufnahmen vom tschechischen Sender CT1. Also ich hole sie mir aus dem Teletext und lasse sie in SRT (UTF8 oder auch UNICODE) ausgeben. Nur im Vergleich mit ProjectX sind manche Buchstaben verschieden. ProjectX liegt da richtig beim TS-DOCTOR fehlten ab und zu ein paar Häkchen am Buchstaben. Hier mal ein paar Beispiele:


ProjectX
Řešení
Pojďte
Čekám
Šilera
Že



TS DOC
Rešení
Pojdte
Cekám
Silera
Ze



Bis auf diese paar Buchstaben funzt es eigentlich. Liesse sich das ändern?
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Cypheros

Hi, hab hier leider keine tschechischen Testaufnahmen zu probieren. Könntest Du mir so eine Aufnahme zusenden?
Kannst es an support (ät) cypheros.de schicken oder wenn die Aufnahme > 40MB ist, kann ich Dir einen FTP-Zugang zu unserem FTP-Server geben.


Christian

#2
Ich schick dir morgen mal eine PN bzw. ne Mail mit einem Link zu meinem Dropboxordner
ich schneide ein paar MB aus, nur das Hochladen wird die ganze Nacht dauern...
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Djfe

FTP ist definitiv schneller
Dropbox ist sau langsam bei großen Dateien...

Christian

Ja, aber ich glaube der Flaschenhals bei mir ist das DSL 2000 kbit/s mit 24 kbyte/s Upload.
Egal, nun liegt es im DB-Ordner.
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Cypheros


Cypheros

OK, Problem gefunden. Die Zeichentabelle für diakritische Umlaute war unvollständig für X/26- Erweiterung. Sollte nun vollständig sein.

Anbei die SRT-Untertitel unter Verwendung der neuen Tabelle.

Christian

Leider sind manche Buchstaben immernoch falsch.

Bei Untertitel Nr. 32 muss es "Řešení" heissen -> in deiner Datei steht "Rešení"
Bei Untertitel Nr. 41 muss es "Pojďte" heissen -> in deiner Datei steht "Pojdte"
Bei Untertitel Nr. 75 muss es "buď " heissen -> in deiner Datei steht "bud"
Bei Untertitel Nr. 152 muss es Že" heissen -> in deiner Datei steht "Ze"
Bei Untertitel Nr. 127 muss es "Šilera" heissen -> in deiner Datei steht "Silera"


mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Derrick

Auf 23,5E werden tschechische Programme gesendet. CT1 (auf 12525V) ist zwar verschlüsselt, aber der Teletext nicht.

Cypheros

Ups, falsche Datei angehängt, war noch von der alten Version. Anbei die richtige neue, gerade eben erstellt.

Hab inzwischen einige tschechische Aufnahmen von Nova, Prima TV, CT1, CT2 und CT Sport. CT1, CT2 und Nova unterstützen ab der nächsten Version auch VPS-Schnitt und Erfassung der Sendungsdetails bei Aufnahmen über Astra 23,5E.
[attachimg=2]

Christian

mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Cypheros


Christian

Bei den Expertenwerkzeugen erzeugt der Demuxer auch noch eine falsche SRT-Datei was die Umlaute betrifft. Ausserdem ist der Zeitcode um mehrere Minuten verschoben gegenüber der SRT-Version, die beim Fixen eines TS-Streams generiert wird.
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco

Cypheros

Der Demuxer ist recht einfach gestrickt und korrigiert weder Timer noch PMT und setzt deshalb einen reparierten und bereinigten Stream voraus. Also erst die Aufnahme durch den TS-Doctor schicken und dann den Demuxer benutzen. Dann sollte das gleiche Ergebnis beim Demuxen rauskommen.

Christian

Nein, auch ein Fixed-Stream-SRT hat nach dem Demuxer falsche Umlaute.
Dass die Timecodes nicht stimmen-> ok aber die Buchstaben müssten noch zu korrigieren sein.
mein Kanal rund um das Thema "Tschechische Filme und Serien"
https://www.youtube.com/c/ChristianArabellaundco


www.cypheros.de