Forum général.général Extraction des sous-titre des JT des chaînes TV

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes : aucune
2
21
jan.
2022

Bonjour,

Je cherche à récupérer les sous-titres / scripts des JT des différentes chaîne TV.

Il y a plusieurs pistes pour récupérer les sous-titres :
- via les box des fournisseurs. Je n'ai rien trouvé sur ce sujet, même pas le format (texte, bitmap ?)
- via la TNT HD (DVB-T), il y a un article sur ce sujet ici. Le format est malheureusement du bitmap mais toujours avec la même police et l'OCR semble bien fonctionner. Je pense prendre une carte DVB-T usb à base du chipset Rtl2832U et tester cette piste. Une liste des cartes TNT est ici et un article sur la TNT sous Linux
- reconnaissance vocale sur l'audio. Par exemple utiliser Julius et trouver un modèle en français. L'avantage étant qu'en l'absence de sous-titre, on a tout de même le script. Mais trouver un modèle pré-entraîné en français n'est pas forcément facile.

Auriez-vous :
- d'autres pistes à creuser
- plus d'infos sur celles listées ici ?

Merci.

  • # Sous-titres en texte ?

    Posté par  . Évalué à 3.

    Il n'y a pas les sous-titre sous forme de texte, dans un flux séparé, par exemple ?

  • # les sites de replay

    Posté par  (site web personnel) . Évalué à 5. Dernière modification le 22 janvier 2022 à 09:20.

    si je fais, avec yt-dlp, vu que youtube-dl n'est plus mis à jour depuis 6 mois (pour le journal de ce soir ou d'autres)

    yt-dlp --write-subs https://www.france.tv/france-2/journal-20h00/3018949-edition-du-vendredi-21-janvier-2022.html

    j'obtiens entre autres choses des fichiers de sous-titres

    rw-r--r-- 1 gg gg      56817 21 janv. 20:58 'Journal 20h00 [5d684f2f-85fb-4181-b184-1a40ee4aac1a].fr.vtt'
    -rw-r--r-- 1 gg gg      61099 21 janv. 21:32 'Journal 13h00_France 2_2022_01_21_12_58.vtt'
    -rw-r--r-- 1 gg gg      68038 21 janv. 21:32 'Journal 13h00_France 2_2022_01_21_12_58.srt'
    -rw-r--r-- 1 gg gg      14557 21 janv. 21:32 'Journal 08h00_France 2_2022_01_21_08_00.vtt'
    -rw-r--r-- 1 gg gg      16062 21 janv. 21:32 'Journal 08h00_France 2_2022_01_21_08_00.srt'
    
    

    edit : ajouter
    --skip-download pour éviter de télécharger la vidéo

    ウィズコロナ

  • # As-tu vu cette dépêche ?

    Posté par  (site web personnel) . Évalué à 4.

    Tu as probablement vu cette dépêche qui parle d'un sujet assez proche : https://linuxfr.org/news/compter-automatiquement-les-mots-prononces-sur-les-chaines-d-information-continue ?

  • # ccextractor

    Posté par  . Évalué à 4. Dernière modification le 22 janvier 2022 à 18:59.

    https://www.ccextractor.org/

    libre, empaqueté chez debian, je ne sais pas chez les autres.
    Je l'utilise pour extraire les sous-titres des videos de francetelevions

    • [^] # Re: ccextractor

      Posté par  (site web personnel) . Évalué à 1.

      Super projet, merci.

      @peetah Tu confirmes que les chaînes française diffusent les sous-titres dans les flux DVB-T de la TNT ? J'avais lu qu'elles avaient arrêté en 2016 lors du passage en TNT HD.

      • [^] # Re: ccextractor

        Posté par  . Évalué à 3. Dernière modification le 26 janvier 2022 à 13:04.

        aucune idée: les videos diffusées et enregistrées via la freebox contiennent des sous titres que ffmpeg detecte mais ne sait pas interpréter à ma connaissance, et que ccextractor est capable d'extraire. Il y a peut être des contraintes techniques qui restreignent leur diffusion via la TNT

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.