Comprendre l'Unicode

Posté par sargoo le 23 août 2002 à 15:35. Modéré par Brice Favre.

Étiquettes :

août

2002

Le célèbre webzine uzine publie un court mais intéressant article sur la problématique de codage ( des pages webs entre autres ) des différents caractères existant dans les langues de notre chère planète. La norme Unicode y est introduite de manière simple et compréhensible.

Note du Modérateur: L'article d'uzine n'est pas si court ;) et relativement explicite. Une bonne introduction en somme.
(La FAQ par contre est exhaustive :) )

Aller plus loin

Voyage dans la tour de Babel du net (34 clics)
FAQ Unicode pour GNU/Linux et Unix (8 clics)

# plop

Posté par Brice Favre (site web personnel) le 23 août 2002 à 15:42. Évalué à -10.

juste un test, pas faire attention (d'ailleurs -1)
mais bon c'est un article sympa, lisez le.
# Spip

Posté par dinomasque le 23 août 2002 à 16:18. Évalué à 10.

Au passage, allez donc faire un tour sur le moteur d'Uzine : www.spip.org.

C'est un formidable système de gestionde contenu (et avec un peu de bonne volonté, on peut obtenir des sites "jolis" et ergonomiques contrairement au look par défaut qui est abominable)
BeOS le faisait il y a 20 ans !
- [^] # Re: Spip
  
  Posté par pwet pwet le 23 août 2002 à 18:16. Évalué à -10. Dernière modification le 04 décembre 2021 à 19:38.
  
  HI,
  
  ya templeet aussi (si j'ai bien compris ;).
  
  templeet.org (NdM: modifié en 2021 pour pointer sur archive.org)
# Why can't they all speak ________ ??

Posté par yosch le 23 août 2002 à 18:29. Évalué à 10.

Petit quiz rapide, combien recense-t-on actuellement de langues parlées dans le monde ?
Alors??

Ben, c'est pas si simple en fait. Les dernières estimations des spécialistes en recherche et développement linguistique tournent autour de 6809, mais ces données sont en constante évolution. ( cf. http://www.ethnologue.com/ethno_docs/distribution.asp(...) )
C'est dire le boulot qu'il faut pour penser à tout le monde.

Pire encore, il faut aussi réaliser qu'une grande majorité de ces langues ne sont même pas écrites. Elles sont toujours au stade oral et on ne connaît que très vaguement leurs besoins. Heureusement, diverses organisations commencent à réaliser que des standards proprios, fermés et inextensibles ça craint sérieusement pour le long-terme, elles mettent donc en commun leur expertise et contribuent à des standards très évolutifs comme l'Unicode qui est un excellent exemple.

Je trouve encourageant d'entendre parler de progrès dans ces domaines. A long terme, la perspective alléchante de voir toutes les langues - et pas seulement celles des pays riches - avoir accès aux outils de l'information, pouvoir créer, échanger, imprimer et publier sur le web leurs propres documents électroniques dans leurs propres scripts - aussi complexes soient-t-ils - deviendra réalité.

Il me semble évident que le libre a un grand rôle à jouer dans ce domaine, pour la simple et bonne raison que certains besoins en termes de scripts complexes sont loin de constituer un marché pour les Apple, M$ et autres mastodontes de l'informatique mais n'en sont pas moins indispensables pour un paquet de groupes minoritaires.
Mais tout ne doit pas obéir aux règles du marché! Si on donne à ces minorités des outils issus du libre qui implementent et respectent bien les standards, ils ne se seront pas forcés de subir une technologie inadapté à leur besoins.

Pour finir, voilà deux liens pour vous donner une petite idée de la variété des langues de notre planète:

I don't know, I only work here...
http://crism.maden.org/dunno.html(...)

Why can't they all speak __________ ?
http://www.trigeminal.com/samples/provincial.html(...)
- [^] # Articles interessants
  
  Posté par icyfemur le 24 août 2002 à 15:43. Évalué à 4.
  
  A propos de la pluralité des langues, voir entre autres les écrits de Charles Durand (enseignant chercheur à l'UTBM) très interessants, pour son opposition en général à une langue "unique", et à la défense du Français en particulier, notement comme langue officielle au sein de l'Europe.
  
  Après avoir lus ces articles, je pense que la défense du plurilinguisme est très proche de celle des logiciels libres.
  
  Ces articles se lisent assez rapidement, et sont très interessants :
  
  - La manipulation mentale par la destruction des langues : http://www.mef.qc.ca/manipulation_mentale_destruction_langues.htm(...)
  - Défense du français scientifique : http://www.mef.qc.ca/d%E9fense-francais-scientifique.htm(...) (très interessant)
  - La mise en place des monopoles du savoir (résumé du livre) : http://www.unc.edu/depts/diplomat/archives_roll/2002_04-06/french_r(...)
  - Lite d'articles : http://www.mef.qc.ca/francais-sa-defense.htm(...)
  
  Il est amusant (enfin plutot navrant en réalité) de voir que les québéquois semblent plus attachés à la langue française que les français eux mêmes...
# esprits chagrins ne lisez pas ça

Posté par Ramso le 23 août 2002 à 20:40. Évalué à 8.

Ca veut dire qu'on peut même stocker le klingon et le klatchien en unicode ? :)

non en fait pas de ":)", il reste vraiment tant de place que ça ?

Et pour Linux, on peut se mettre à utiliser UTF-8 comme charset par défaut, ou il vaut mieux garder iso-8859-?
- [^] # Re: esprits chagrins ne lisez pas ça
  
  Posté par daggett le 23 août 2002 à 21:21. Évalué à 10.
  
  pas "on peut"... on le fait !
  
  http://www.lanana.org/docs/unicode/unicode-draft.txt(...)
  
  Dans l'espace unicode, il y a une plage réservée pour une utilisation "locale" (dépendant de l'OS, de l'appli etc..), alors des ptits rigolos ont décidé de mettre le klingon dans la zone locale pour linux !
- [^] # Re: esprits chagrins ne lisez pas ça
  
  Posté par Anonyme le 23 août 2002 à 21:48. Évalué à 10.
  
  il y a plein de place, mais pour des raisons d'économie, à peu près tous les caractères tiennent dans le BMP (Basic Multilingual Plane) donc sont codés sur 16 bits, et pour en faire tenir le plus possible, les boulets qui ont fait l'unicode ont vu que les kanjis chinois et japonais étaient à peu près les mêmes, alors ils les ont mélangés (comprendre : les caractères chinois et japonais qui "sont les mêmes" ont le même code de caractère).
  Conséquence : ni les chinois, ni les japonais ne veulent adopter UTF-8 (et ils ont bien raison)
  - [^] # Re: esprits chagrins ne lisez pas ça
    
    Posté par Vincent ZOONEKYND le 26 août 2002 à 09:44. Évalué à 4.
    
    Je précise : il y a des caractères chinois et japonais qui ont la même origine et se ressemblent beaucoup. Ils ne diffèrent souvent que par un seul trait ou un seul point -- mais dans ces langues, se tromper sur ce genre ce chose constitue une faute d'orthographe, un peu comme une faute d'accent en français. Si un fichier UTF8 contient une seule langue, et si on a un moyen extérieur de savoir laquelle (extension du fichier, etc.), ça ne pose pas de problème : le texte sera affiché correctement ; si le fichier contient plusieurs langues et s'il utilise un balisage indiquant clairement les changements de langue (XML ou autre), cela ne pose pas de problème non plus. Par contre, on ne peut pas imaginer de fichier "texte" multilingue en Unicode : il ne pourrait pas être affiché correctement, l'ordinateur n'ayant aucun moyen de savoir de quelle langue il s'agit.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.