Journal Comment récupérer les sous-titres d'un enregistrement de la TNT: mini-tuto

17
12
avr.
2014

Bonjour,

Un petit journal pour vous expliquer comment récupérer les sous-titres DVB des chaînes télé françaises et les convertir sous forme d'un fichier texte srt. J'ai pas mal galéré, donc je me suis dit qu'un petit tuto pourrait être utile.

Pré-requis:

je suppose que vous avez un fichier .ts contenant la video et les sous-titres. Normalement, vlc ou totem sont capables d'afficher ces sous-titres.
Si vous découpez un fichier, attention au découpage, certains logiciels perdent la piste de sous-titres au découpage (par exemple dvbcut). Pour ma part, je coupe avec un dd if=$entree of=$sortie ibs=100000 skip=$taille count=$c.

Installation:

Vous aurez besoin du logiciel de reconnaissance de caractères tesseract, ainsi que d'outils de création de sous-titres: sous debian, ce sont les paquets tesseract, tesseract-ocr-fra, ogmrip.

Je suppose également que java est installé.

Ensuite, il faut récupérer une version très récente de ProjectX.
La version dans les dépots a un bug

http://forum.dvbtechnics.info/showthread.php?t=32024

Une fois ProjectX.zip téléchargé, sauvez-le sous
/usr/local/share/projectx/ProjectX.jar
sudo mkdir /usr/local/share/projectx/lib
cd /usr/local/share/projectx/lib
sudo wget http://mirrors.ibiblio.org/pub/mirrors/maven/commons-net/jars/commons-net-1.3.0.jar

Utilisation:

Mettre le fichier .ts dans un sous-répertoire (pleins de fichiers vont être créés), puis lancer

java -jar /usr/local/share/projectx/ProjectX.jar

File: sélectionner le fichier ts

Cliquer sur Prepare, puis Presettings,

Onglet Output: tout décocher, sauf subpicture
Onglet Subtitle: cocher "additional export as Vobsub", choisir la Fonte (je prends courier). Dans l'onglet "simulate DVB Subpictures IRD Color Model", je prends UkFreeview(mc). Vous pouvez tenter d'autres combinaisons, mais un mauvais choix peux amener à des sous-titres que le logiciel de reconnaissance ne saura pas traiter (en particulier le choix par défaut ne convient pas).

On peut fermer l'onglet, et lancer le traitement avec la touche en forme de triangle. Dans la fenêtre de log, vous pouvez controler le nombre de sous-titres reconnus.

On ouvre maintenant un terminal dans le répertoire utilisé:

b="mon_fichier.sup"
l="fra"
subp2tiff --sid=0 -n $b
for i in *.tif; do tesseract $i $i -l $l; done
subptools -s -w -t srt -i $b.xml -o $b.srt

Et c'est fini, il n'y a plus qu'à éditer le fichier .srt pour corriger les petites erreurs.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.