Journal : Explosion d'UNICODE sur le web
Posté par IsNotGood () le 10 mai 2008
0
Si on en croit les statistiques de google, UNICODE est devenu le codage de caractère le plus utilisé sur Internet :http://googleblog.blogspot.com/2008/05/moving-to-unicode-51.(...)
Notons qu'aujourd'hui la majorité des distributions utilise UNICODE par défaut.
Bientôt la fin des charsets. Hourra !
> Lire le journal (56 commentaires, moyenne: 3,7).
Vous avez demandé le commentaire #929713.



Unicode definit plusieurs charsets...
Juste pour chipoter: la norme Unicode definit plusieurs jeux de caracteres, par exemple UTF-8, UTF-16, UTF-32, comportant chacun ses avantages et inconvenients suivant le contexte. Ce n'est donc pas la fin des charsets.
Par contre, c'est vrai que dans une bonne partie du monde internet/unix, UTF-8 devient de plus en plus la norme, ce qui regle un bon paquet d'incompatibilites lors de conversions foireuses (ou absentes) entre des textes ecrits dans des charsets differents.
[^]Re: Unicode definit plusieurs charsets...
> Juste pour chipoter: la norme Unicode definit plusieurs jeux de caracteres, par exemple UTF-8, UTF-16, UTF-32, comportant chacun ses avantages et inconvenients suivant le contexte. Ce n'est donc pas la fin des charsets.
Non, c'est un codage d'UNICODE. UNICODE dit que '€' a pour valeur 345 et UTF-8 le code cette valeur avec 0x024485 (NB : c'est peut-être n'impore quoi comme un exemple). Il y a des fonctions assez simple pour passer de UNICODE à UTF-8 (ou 16, etc) et vice versa. Ces fonctions marquent quelque soit la version d'UNICODE utilisé.
UTF-8, etc ne définit pas de caractère. C'est UNICODE qui le fait.
[^]Re: Unicode definit plusieurs charsets...
Fatigué je suis.
> UTF-8 le code
UTF-8 code
> Ces fonctions marquent
Ces fonctions marchent