Salut,
Je ne sais pas si vous avez aussi ce genre de problème, mais moi j'avais de plus en plus souvent besoin d'outil pour passer de l'ISO-8859-1 à l'UTF-8 (dans les deux sens), ou encore encoder une chaîne au format url, html, ou encore décoder une chaîne au format base64. J'ai donc écrit un petit outil pour ça :
http://www.haypocalc.com/prog/encodage.php#outil_reencodage(...)
On peut choisir le charset d'entrée et de sortie, ainsi que l'encodage en entrée et en sortie. Ce qui supporté pour l'instant :
- charset : iso-8859-1 ou utf-8
- encodage d'entrée : texte brut, url, html, base64, hexadécimal
- encodage de sortie : texte brut, url, html, entités html (transforme également les lettres accentuées par ex.), quoted-printable (utilisé dans l'envoi d'email par ex.), base64 et hexadécimal
Si vous êtes intéressé par l'outil, je peux vous envoyer les sources (c'est du PHP), ou je peux ajouter de nouveaux charset / encodages.
Sinon, dans le domaine des encodage du texte, on peut aussi noter :
- l'outil iconv en ligne de commande qui permet de changer de charset très facilement : echo "accentué" | iconv -f iso-8859-1 -t utf-8
- Utrac : Outil qui permet de reconnaître un charset
http://linuxfr.org/~calandoa/16251.html(...)
J'espère que cet outil pourra vous être utile un jour ou l'autre.
@+ Haypo
# Recode
Posté par Thomas Petazzoni (site web personnel) . Évalué à 4.
Package: recode
Priority: optional
Section: text
Installed-Size: 644
Maintainer: Santiago Vila <sanvila@debian.org>
Architecture: i386
Version: 3.6-10
Depends: libc6 (>= 2.2.4-4), librecode0 (>= 3.6)
Filename: pool/main/r/recode/recode_3.6-10_i386.deb
Size: 178394
MD5sum: c050005a97ae82dd2a322a54fc0be4a9
Description: Character set conversion utility
Free `recode' converts files between character sets and usages. When
exact transliterations are not possible, it may get rid of the
offending characters or fall back on approximations. This program
recognizes or produces nearly 300 different character sets and is able
to transliterate files between almost any pair. Most RFC 1345
character sets, and all `libiconv' character sets, are supported.
[^] # Re: Recode
Posté par Matthieu . Évalué à 3.
[^] # Re: Recode
Posté par Tobu . Évalué à 3.
[^] # Re: Recode
Posté par calandoa . Évalué à 3.
http://utrac.sourceforge.net/links.html(...)
Il y a notamment http://www.volny.cz/vorisekd/test.htm(...) qui fait un benchmark d'une multitude de convertisseurs en kilobajt za sekundu (bin oui, c'est du tchèque...).
On peut quand même se demander si c'est franchement utile de tester la vitesse de ces outils... c'est pas franchement le genre d'opération qui plombe le système :^).
(et Utrac 0.3 dans les bacs la semaine prochaine!)
# Encodages supportés par une police de caractères
Posté par Boa Treize (site web personnel) . Évalué à 3.
mkfontscale ne trouve pas tous les encodages, par exemple, mais c'est peut-être juste sa configuration qui est à améliorer.
# iconv
Posté par Colin Leroy (site web personnel) . Évalué à 1.
# Il vaut mieux utiliser un outil en ligne de commande
Posté par Cali_Mero . Évalué à 5.
[^] # Re: Il vaut mieux utiliser un outil en ligne de commande
Posté par Boa Treize (site web personnel) . Évalué à 3.
Je confirme, c'est très irritant. Pour plus de détails (et pour voter), c'est par là :
https://bugzilla.mozilla.org/show_bug.cgi?id=194498(...)
[^] # Re: Il vaut mieux utiliser un outil en ligne de commande
Posté par Victor STINNER (site web personnel) . Évalué à 2.
En fait, le jour où j'ai écrit cette outil, c'est parce que j'avais besoin de convertir une chaîne au format "url" (car les espaces et lettres accentués passent parfois mal dans les navigateurs). Et vu que je bosse dans un framework avec WYSIWYG, c'est super pratique.
@+ Haypo
# cool et en perl ?
Posté par BAud (site web personnel) . Évalué à 2.
http://rf.net/~james/perli18n.html(...) [en] Faq for utf-8
http://userpage.fu-berlin.de/~ram/pub/pub_w33d45lg/perl_unicode_en(...) [en] use unicode in perl
http://perl-xml.sourceforge.net/faq/#encodings(...) [en] unicode utf-8 with perl / xml
En fait, j'ai lu que la valeur de charset pour iconv dépendait du système, donc si quelqu'un a une URL avec une liste ça m'intéresse, histoire de mettre l'encodage qui va bien dans les pages HTML.
Sinon j'ai pas trop compris pourquoi ne pas stocker en utf-8 en base et mettre un encodage en utf-8 pour la page html envoyée côté client ? ça permettrait d'éviter le souci lorsqu'on affiche du Français, de l'Estonien et du Grec sur la même page non ? y-a-t-il un problème lié aux fontes disponibles côté client ?
Ce que j'ai plutôt vu, c'est :
côté client / côté serveur / en base
encodage locale / transformation utf-8 <=> locale / utf-8
mais je n'ai pas forcément (encore) compris pourquoi...
dans man perluniintro et man perlunicode il y a quelques infos pertinentes (si ce n'est que la comparaison incessante entre ce qui se passe en perl 5.6 et perl 5.8 est pénible à lire dans le texte, voire m'amène à tout confondre :-( ) :
How Do I Display Unicode? How Do I Input Unicode?
See http://www.alanwood.net/unicode/(...) and
http://www.cl.cam.ac.uk/~mgk25/unicode.html(...)
# chinois français en latex
Posté par RB . Évalué à 2.
1) Belles fontes chinoises (cyberbit) mais plus de coupure juste des mots contenant un accent en français
2) Fontes trop petites et français parfait.
Dans tous les cas, le texte est codé en UTF-8
Si personne n'a de solution toute prête alors je détaillerai plus mes essais :-) Merci.
[^] # Re: chinois français en latex
Posté par koxinga . Évalué à 1.
Tu pourrais m'expliquer comment tu as fait ?
# renommage de fichiers
Posté par ccomb (site web personnel) . Évalué à 2.
Si ça peut servir aussi :
http://ccomb.free.fr/wiki/wakka.php?wiki=UtfConvert(...)
# esperluette
Posté par mammique . Évalué à 2.
[^] # [HS Total] esperluette
Posté par Vroum . Évalué à 2.
www.esperluette.fr
www.esperluette.net
www.esperluette.com
www.esperluette.org
# Support des encodages quoted printabled
Posté par Victor STINNER (site web personnel) . Évalué à 1.
@+ Haypo
[^] # Re: Support des encodages quoted printabled
Posté par Victor STINNER (site web personnel) . Évalué à 2.
L'encodage en hexadécimal se fait maintenant avec le préfixe "\x", c'est plus clair comme ça.
Bon, l'outil devrait être repensé pour mieux gêrer les charset autre que iso-8859-1 et UTF-8, mais c'est déjà pas mal comme ça ;o)
Enfin, j'ai traité à part le cas du caractère euro (¤), qui vaut a le code iso-8859-15 : 128. Or le code Unicode correct est 8364, j'ai donc fait un vilain hack pour traiter pour les encodages en HTML hexadécimal/décimal.
Haypo
[^] # Re: Support des encodages quoted printabled
Posté par Boa Treize (site web personnel) . Évalué à 2.
Tu n'as manifestement pas compris l'encodage UTF-8. Le "é" c'est bien le caractère Unicode n°00E9 (soit 233 en décimal, c'est volontaire, les 256 premiers caractères d'Unicode reprennent l'ISO-8859-1), et il se code C3 A9 en UTF-8, point final. (Mais d'où sors-tu ton second 233 ?!)
Pour information, les caractères Unicode de 0000 à 007F se codent sur un octet en UTF-8, les caractères de 0080 à 07FF se codent sur deux octets, les caractères de 0800 à FFFF se codent sur trois octets. (Et ainsi de suite pour les autres caractères, on peut monter jusqu'à six octets de cette manière.)
[^] # Re: Support des encodages quoted printabled
Posté par Vivi (site web personnel) . Évalué à 2.
mais Unicode s'est limité à la plage 0x00-0x10FFFF (par compatibilté avec UTF-16), ce qui fait au maximum 4 octets pour UTF-8.
[^] # Re: Support des encodages quoted printabled
Posté par Boa Treize (site web personnel) . Évalué à 2.
Non, car UTF-8 ne se contente pas d'encoder Unicode, mais également l'ISO-10646, qui est un jeu de caractères codés sur 32 bits (et non pas 16 comme l'Unicode initial ou 21 comme l'Unicode actuel). On a alors bien besoin de six octets.
Cf. http://www.cl.cam.ac.uk/~mgk25/unicode.html(...) pour de plus amples informations.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.