Forum Linux.général détection du type d'encodage de caractères

Posté par .
Tags : aucun
1
25
oct.
2008
j'ai un document .txt de 8 M0 à encoder en utf8
je ne trouve pas l'encodage d'origine des caractères
la commande iconv -l donne des centaines de choix possible en entrée
ex:
iconv -f ISO-8859-1 -t UTF-8 document1.txt > document2.txt

existe t il un programme pour détecter le type d'encodage d'un texte ?

merci
  • # Commande "file"

    Posté par . Évalué à 2.

    Bonjour,

    La commande file te fournira pas mal d'informations concernant ton fichier.
    • [^] # Re: Commande "file"

      Posté par . Évalué à 1.

      rob2@ordi2:~/mes-documents/mes-tests$ file -i diff.txt
      diff.txt: text/x-diff



      c'est pas encore ça
  • # de mémoire

    Posté par (page perso) . Évalué à 1.


    enca
    recode
  • # Universal Text Recognizer and Converter

    Posté par . Évalué à 3.

    Salut,

    Regarde du côté de utrac ( http://utrac.sourceforge.net/ ).
    À mon avis tu trouvera ton bonheur.
  • # Vim

    Posté par (page perso) . Évalué à 3.

    A partir de la version 7 si elle est bien installée (vim-enhanced et pas le minimal).

    Il te suffit d'ouvrir le fichier via :
    $ vim ton_fichier.txt
    :set fileencoding=utf-8
    :set fileformat=unix
    :set nobackup
    ZZ

    Et ton fichier devrait avoir été converti.

    Maintenant ton fichier peux être a mon avis dans un de ces 3 encodages :
    iso8859-1
    iso8859-15
    cp1250

    Si ton fichier contiens plusieurs encodages, là tu sera vraiment foutu...

    Si tu ouvre avec vim un fichier cp1250 (charset windows idiot), tu devrais avoir des <92>, <93>, etc... en bleu qui sont des double ou simple guillemets si mes souvenirs sont bon.

    Si seulement quelques caractères sont pourris tu peux jouer avec les remplacement de masse.

    Tu place le curseur sur le caractère, tu fait 'ga' en mode commande, puis ':%s/^vu92/"/g' et le tour sera joué.
    Avec ^v == Ctrl+v, tu ne vera rien avant d'avoir tapé le / qui suit car c'est un caractère spécial et c'est normal.

    Pour passer en mode commande Ctrl+c, pour l'insertion Insert, pour le remplacement Insert une autre fois.

    Sortie en enregistrant ZZ, pour ne pas enregistrer ZQ

    Bon courage...
  • # utrac

    Posté par . Évalué à 0.

    je vais tester utrac,c'est le bon outil pour ce travail
    merci
  • # suite utrac

    Posté par . Évalué à 2.

    aprés avoir compilé la source utrac
    et installé les paquets ttf nécéssaires

    commande en utilisateur:
    utrac texte1.txt > texte2.txt

    texte2.txt se trouve en utf8

    bravo
  • # suite

    Posté par . Évalué à 1.

    • [^] # Re: suite

      Posté par . Évalué à 1.

      c'est du vrai gaulois ça ? Ou bien du gaulois revisité par des extraterrestres de la galaxie Mahbhoul ?

      Only wimps use tape backup: real men just upload their important stuff on megaupload, and let the rest of the world ~~mirror~~ link to it

      • [^] # Re: suite

        Posté par . Évalué à 2.

        C'est dans ces moments là que l'on s'aperçoit que le monde ne tourne plus rond.
        Asterix rendant visite à son ami Tux.

        Si un medecin est présent dans la salle ...
  • # gucharmap

    Posté par . Évalué à 1.

    vous pouvez controler avec gucharmap si vos ttf sont installés
    si il a des carrés à la place des caractères d'écritures
    vous pouvez aussi utiliser rechercher avec un carré d'un texte pour connaitre le ttf nécéssaire à l'affichage
    si vous transcodez des pages html il faut remplacer le charset dans la source de la page pour UTF-8
    c'est pour avoir le mème affichage de caractères quelque soit la région du lecteur

    vérifier là pour les carrés:
    http://www.ponge.com/telechargements/menu/exemple/epiphany.d(...)

    il faudrait un métapackage qui permet d'installer tous les ttf de langues
  • # liste de ttf

    Posté par . Évalué à 1.

    ttf-bengali-fonts
    ttf-bitstream-vera
    ttf-dejavu
    ttf-dejavu-core
    ttf-dejavu-extra
    ttf-devanagari-fonts
    ttf-dzongkha
    ttf-gujarati-fonts
    ttf-indic-fonts
    ttf-kannada-fonts
    ttf-kochi-gothic
    ttf-kochi-mincho
    ttf-liberation
    ttf-malayalam-fonts
    ttf-opensymbol
    ttf-oriya-fonts
    ttf-punjabi-fonts
    ttf-tamil-fonts
    ttf-telugu-fonts

    ce qui permet la lecture de la page d'exemple

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.