Forum général.cherche-logiciel Identifier et convertir les noms de fichiers chinois vers UTF8

Posté par .
Tags : aucun
2
15
mar.
2010
Bonjour ,


Voila utilisant un certains nombre de documenst en chinois , ceux ci lorsque je les reçoit sont dans différents encodages non utf8 , et mon système je ne peut lire les noms de fichiers (les caractère chinois sont remplacé par nombres de symboles ésotériques ) .
Sachant que je recois en plus des fichiers avec des encodages différents (BIG5 , GB2312 , GB18030,... ) j'aimerais pouvoir convertir les noms de fichiers en utf8 pour avoir un encodage lisible et unifié sur mon système .

J'ai suis tombé sur l'outil convmw , mais il demande à connaitre l'encodage des différents noms de fichiers en entrée avant de me sortir de l'utif8 . Hors je n'ai pas trouvé d'outils qui me donne ces encodages. J'ai vue qu'un double encodage des noms pouvait corrompre le contenu des fichiers , je préfère m'assurer que convmw puisse avoir l'encodage correcte en entrée ...

Qu"en est il de l'interopérabilité avec les autres OS (windows xp , vista et os x )
Un petit googling me dit mentionne certains probleme sous win xp , j'aimerais juste que mes correspondants n'aye pas eu aussi des problème de nom de fichiers lorsque je leur envoye mes fichiers nommé en UTF8 (sinon c'est le serpent qui se mort la queue , bien sur je pourrais dire qu'ils n'ont qu'a utiliser un vrai system tel que GNU/Linux, mais c'est pas eux qui décide de l'architecture du system d'info dans leurs boites )

Que me conseillez vous ? Quel retour d'expérience avez vous ?
  • # C'est récurrent

    Posté par (page perso) . Évalué à 7.

    Bonjor,

    Précise à tes correspondants que tu leur envois des fichiers en Unicode, avec un nom en Unicode.
    Demande-leur de faire de même.

    Ce genre de problème d'encodage est très courant en asie.... je ne sais plus quel nom ça porte.

    L'utf8 permet de résoudre la plupart des cas... sauf pour le sanscrit ou l'utf16 est plus adapté :)

    Pour les e-mails, c'est encore plus pénible, avec ceux qui utilisent un webmail dans une langue différente, et d'autres qui utilisent des outils microsoft où l'encodage n'est pas précisé dans les en-tête du message.

    Le plus simple : répandre la bonne parole : Unicode!
    puis un jour microsoft sortira sa version de l'unicode... incompatible avec l'existant naturellement.
    Heureusement qu'il reste d'autres systèmes d'exploitations plus sérieux.

    A bientôt
    Grégoire
    • [^] # Re: C'est récurrent

      Posté par . Évalué à 1.

      Je suis totalement d'accord avec toi , mais comme je le disais mes correspondants sont loin de faire la politique du système d'information de l'entreprise , et aussi sont pas des pur geeks non plus ...

      Mais des infos sur la migration vers l utf-8 sous windows xp et vista chinois , tant au niveau du codage du contenu de fichier txt que du codage des noms de fichiers (surtout ) serait intéressant .

      Si tu as des sources fiables cela m'interresserait , n'ayant plus mis les pieds dans une fenetre depuis des lustres ,je suis preneur :)

      surtout que cela ferait progreser l'interopérabilité a court terme et le logiciel libre a long terme :)
  • # Detecteur automatique

    Posté par . Évalué à 1.

    Un petit coup de google me donne ce lien : http://chardet.feedparser.org/

    C'est du python, ça doit pouvoir te permettre de mettre facilement un petit script en place pour gérer tes noms de fichiers et éventuellement les convertir. Le tout avec un indice de confiance qui pourrait être utile!

    Si tu l'essaies et que tu en fais quelque chose, n'hésite pas à poster ici le résultat, ça pourrait bien m'intéresser également.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.