Forum général.général A propos d'UTF8

Posté par  (site web personnel) .
Étiquettes : aucune
0
29
avr.
2008
Bonjour

Je voulais savoir combien il existait de caractères en UTF8.

Les possibilités sont grandes, mais combien sont réellement défini?

De plus, dans jEdit, on peut choisir deux encodages UTF8, l'un à une variante : utf8y. Que signifie cet "y"?

A bientôt
G
  • # Unicode

    Posté par  (site web personnel) . Évalué à 3.

    On ne peut pas répondre à la question "combien existe-t-il de caractères en UTF8", parce que ça n'a pas de sens. UTF8 est un encodage (parmi bien d'autres), pas un jeu de caractères. Pour les jeux de caractères, il y a notamment Unicode. UTF8 permet simplement d'encoder chacun des points Unicode sur 1, 2, 3 ou 4 octets.

    La version actuelle d'Unicode contient un "total de près de 245 000 points de codes assignés dans un espace pouvant contenir 1 114 112 codes différents" (source : Unicode ).
    • [^] # Re: Unicode

      Posté par  . Évalué à 1.

      Pertinent sur le fond.
      Mais sur la forme, tant que j'y suis (avec le commentaire ci-dessous) : en bon français, on code, on n'encode pas (berk). On parle de coder un message par exemple, et de "codec" (codeur/décodeur).
    • [^] # Re: Unicode

      Posté par  (site web personnel) . Évalué à 2.

      Merci :)

      C'est bien plus clair maintenant.

      Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

  • # codage UTF-8

    Posté par  . Évalué à 2.

    On dit codage de préférence (sinon anglicisme, même si toléré), regarde ici pour plus de détails sur le codage UTF-8 : http://fr.wikipedia.org/wiki/UTF-8 .
  • # utf8j ?

    Posté par  . Évalué à 1.

    Connais pas utf8y, mais vu que Jedit est codé en java et que java utilise un dérivé de UTF-8 (cf http://en.wikipedia.org/wiki/UTF-8#Java ), c'est peut être de cela dont il s'agit.
    • [^] # Re: utf8y

      Posté par  (site web personnel) . Évalué à 2.

      Voilà ce que donne une recherche avec Google sur utf8y (le premier résultat est déjà ta question et il n'y a pas grand'chose à se mettre sous la dent, même en anglais !) :

      >>> The diff, UTF8Y includes the BOM, where UTF8 doesn't.

      En français : UTF8Y inclut une marque_d'ordre_des_octets (le fameux BOM, ou Byte-Order Mark), alors qu'UTF8 ne l'inclut pas.

      Le BOM est un caractère (éventuellement) placé au tout début du fichier qui permet au logiciel de savoir si les octets sont à lire de gauche à droite ou de droite à gauche (voir endianness).

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.