Retourner aux forums || Retourner au forum general.general
Je voulais savoir combien il existait de caractères en UTF8.
Les possibilités sont grandes, mais combien sont réellement défini?
De plus, dans jEdit, on peut choisir deux encodages UTF8, l'un à une variante : utf8y. Que signifie cet "y"?
A bientôt
G
> Lire le message (6 commentaires, moyenne: 1,8).
Unicode
On ne peut pas répondre à la question "combien existe-t-il de caractères en UTF8", parce que ça n'a pas de sens. UTF8 est un encodage (parmi bien d'autres), pas un jeu de caractères. Pour les jeux de caractères, il y a notamment Unicode. UTF8 permet simplement d'encoder chacun des points Unicode sur 1, 2, 3 ou 4 octets.
La version actuelle d'Unicode contient un "total de près de 245 000 points de codes assignés dans un espace pouvant contenir 1 114 112 codes différents" (source : Unicode ).
-
[^]Re: Unicode
Posté par Olivier Jeannet () le 29/04/2008 à 13:18. (lien). Évalué à 1.Pertinent sur le fond.
Mais sur la forme, tant que j'y suis (avec le commentaire ci-dessous) : en bon français, on code, on n'encode pas (berk). On parle de coder un message par exemple, et de "codec" (codeur/décodeur).
-
[^]Re: Unicode
Posté par Grégoire G (Jabber id, page perso, ) le 29/04/2008 à 15:22. (lien). Évalué à 2.Merci :)
C'est bien plus clair maintenant.
codage UTF-8
On dit codage de préférence (sinon anglicisme, même si toléré), regarde ici pour plus de détails sur le codage UTF-8 : http://fr.wikipedia.org/wiki/UTF-8 .
utf8j ?
Connais pas utf8y, mais vu que Jedit est codé en java et que java utilise un dérivé de UTF-8 (cf http://en.wikipedia.org/wiki/UTF-8#Java ), c'est peut être de cela dont il s'agit.
-
[^]Re: utf8y
Posté par Archibald () le 29/04/2008 à 18:39. (lien). Évalué à 2.Voilà ce que donne une recherche avec Google sur utf8y (le premier résultat est déjà ta question et il n'y a pas grand'chose à se mettre sous la dent, même en anglais !) :
>>> The diff, UTF8Y includes the BOM, where UTF8 doesn't.
En français : UTF8Y inclut une marque_d'ordre_des_octets (le fameux BOM, ou Byte-Order Mark), alors qu'UTF8 ne l'inclut pas.
Le BOM est un caractère (éventuellement) placé au tout début du fichier qui permet au logiciel de savoir si les octets sont à lire de gauche à droite ou de droite à gauche (voir endianness).
Revenir en haut de page || Retourner aux forums || Retourner au forum general.general



Cette discussion est archivée, il n'est plus possible de laisser des commentaires.
Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.