Comprendre l'Unicode

Posté par  . Modéré par Brice Favre.
Étiquettes :
0
23
août
2002
Internet
Le célèbre webzine uzine publie un court mais intéressant article sur la problématique de codage ( des pages webs entre autres ) des différents caractères existant dans les langues de notre chère planète. La norme Unicode y est introduite de manière simple et compréhensible.

Note du Modérateur: L'article d'uzine n'est pas si court ;) et relativement explicite. Une bonne introduction en somme.
(La FAQ par contre est exhaustive :) )

Aller plus loin

  • # plop

    Posté par  (site web personnel) . Évalué à -10.

    juste un test, pas faire attention (d'ailleurs -1)
    mais bon c'est un article sympa, lisez le.
  • # Spip

    Posté par  . Évalué à 10.

    Au passage, allez donc faire un tour sur le moteur d'Uzine : www.spip.org.

    C'est un formidable système de gestionde contenu (et avec un peu de bonne volonté, on peut obtenir des sites "jolis" et ergonomiques contrairement au look par défaut qui est abominable)

    BeOS le faisait il y a 20 ans !

  • # Why can't they all speak ________ ??

    Posté par  . Évalué à 10.

    Petit quiz rapide, combien recense-t-on actuellement de langues parlées dans le monde ?
    Alors??


    Ben, c'est pas si simple en fait. Les dernières estimations des spécialistes en recherche et développement linguistique tournent autour de 6809, mais ces données sont en constante évolution. ( cf. http://www.ethnologue.com/ethno_docs/distribution.asp(...) )
    C'est dire le boulot qu'il faut pour penser à tout le monde.

    Pire encore, il faut aussi réaliser qu'une grande majorité de ces langues ne sont même pas écrites. Elles sont toujours au stade oral et on ne connaît que très vaguement leurs besoins. Heureusement, diverses organisations commencent à réaliser que des standards proprios, fermés et inextensibles ça craint sérieusement pour le long-terme, elles mettent donc en commun leur expertise et contribuent à des standards très évolutifs comme l'Unicode qui est un excellent exemple.

    Je trouve encourageant d'entendre parler de progrès dans ces domaines. A long terme, la perspective alléchante de voir toutes les langues - et pas seulement celles des pays riches - avoir accès aux outils de l'information, pouvoir créer, échanger, imprimer et publier sur le web leurs propres documents électroniques dans leurs propres scripts - aussi complexes soient-t-ils - deviendra réalité.

    Il me semble évident que le libre a un grand rôle à jouer dans ce domaine, pour la simple et bonne raison que certains besoins en termes de scripts complexes sont loin de constituer un marché pour les Apple, M$ et autres mastodontes de l'informatique mais n'en sont pas moins indispensables pour un paquet de groupes minoritaires.
    Mais tout ne doit pas obéir aux règles du marché! Si on donne à ces minorités des outils issus du libre qui implementent et respectent bien les standards, ils ne se seront pas forcés de subir une technologie inadapté à leur besoins.

    Pour finir, voilà deux liens pour vous donner une petite idée de la variété des langues de notre planète:

    I don't know, I only work here...
    http://crism.maden.org/dunno.html(...)

    Why can't they all speak __________ ?
    http://www.trigeminal.com/samples/provincial.html(...)
  • # esprits chagrins ne lisez pas ça

    Posté par  . Évalué à 8.

    Ca veut dire qu'on peut même stocker le klingon et le klatchien en unicode ? :)

    non en fait pas de ":)", il reste vraiment tant de place que ça ?

    Et pour Linux, on peut se mettre à utiliser UTF-8 comme charset par défaut, ou il vaut mieux garder iso-8859-?
    • [^] # Re: esprits chagrins ne lisez pas ça

      Posté par  . Évalué à 10.

      pas "on peut"... on le fait !

      http://www.lanana.org/docs/unicode/unicode-draft.txt(...)

      Dans l'espace unicode, il y a une plage réservée pour une utilisation "locale" (dépendant de l'OS, de l'appli etc..), alors des ptits rigolos ont décidé de mettre le klingon dans la zone locale pour linux !
    • [^] # Re: esprits chagrins ne lisez pas ça

      Posté par  . Évalué à 10.

      il y a plein de place, mais pour des raisons d'économie, à peu près tous les caractères tiennent dans le BMP (Basic Multilingual Plane) donc sont codés sur 16 bits, et pour en faire tenir le plus possible, les boulets qui ont fait l'unicode ont vu que les kanjis chinois et japonais étaient à peu près les mêmes, alors ils les ont mélangés (comprendre : les caractères chinois et japonais qui "sont les mêmes" ont le même code de caractère).
      Conséquence : ni les chinois, ni les japonais ne veulent adopter UTF-8 (et ils ont bien raison)
      • [^] # Re: esprits chagrins ne lisez pas ça

        Posté par  . Évalué à 4.

        Je précise : il y a des caractères chinois et japonais qui ont la même origine et se ressemblent beaucoup. Ils ne diffèrent souvent que par un seul trait ou un seul point -- mais dans ces langues, se tromper sur ce genre ce chose constitue une faute d'orthographe, un peu comme une faute d'accent en français. Si un fichier UTF8 contient une seule langue, et si on a un moyen extérieur de savoir laquelle (extension du fichier, etc.), ça ne pose pas de problème : le texte sera affiché correctement ; si le fichier contient plusieurs langues et s'il utilise un balisage indiquant clairement les changements de langue (XML ou autre), cela ne pose pas de problème non plus. Par contre, on ne peut pas imaginer de fichier "texte" multilingue en Unicode : il ne pourrait pas être affiché correctement, l'ordinateur n'ayant aucun moyen de savoir de quelle langue il s'agit.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.