La version 17 d’Unicode est sortie le 9 septembre. Elle ajoute quatre systèmes d’écriture à son répertoire, quelques émojis et divers symboles plus ou moins ésotériques. Elle apporte aussi quelques modifications techniques. Avec les 4 803 caractères ajoutés, le répertoire Unicode en compte maintenant 159 801.
Selon l’expression consacrée, cette version annule et remplace la précédente.
Sommaire
- Les systèmes d’écritures nouvellement adoptés
- Les autres ajouts, et ce qui ne figure pas dans cette version
- Et sur le plan technique ?
- Remerciements (!?) et lectures complémentaires
Les systèmes d’écritures nouvellement adoptés
Les quatre systèmes d’écriture ajoutés ont des origines géographiques et historiques très diverses.
Le Sidétique : une écriture âgée de plus de 3200 ans
Le Sidetique est un système d’écriture très ancien et qui remonte à l’âge de fer (soit environ 1 200 ans avant notre ère) qui était utilisé en Anatolie. C’est un système alphabétique composé de vingt-neuf lettres : voyelles et consonnes très inspiré du grec. On le retrouve essentiellement sur des inscriptions en pierre et des pièces de monnaie. La création d’une police de caractères pour le sidétique est un des projets de l’Atelier National de Recherche Typographique (ANRT) à Nancy.
La proposition d’intégration du sidétique (PDF en anglais) à Unicode date de janvier 2023. Elle concerne vingt-neuf lettres différentes plus trois lettres additionnelles et est maintenant rangée dans les blocs 10940 à 1095F.
Le Tolonge de Siki, à peine un quart de siècle
Le Tolonge de Siki est un système d’écriture nettement plus récent puisque sa première publication date de 1999. Il a été créé par un physicien indien, le Dr Narayan Oraon, assisté du directeur de l’Institut central des langues indiennes (Central Institute of Indian Languages) de l’époque Francis Ekka, du précédent Vice-chancelier de l’université Ranchi dans l’État du Jarkhand et de Nirmal Minz. L’idée était de concevoir une écriture pour le Kuruth, la langue du Jarkhang, un État du Nord-est de l’Inde. Il comporte trente-cinq consonnes et six voyelles et s’écrit de gauche à droite. La demande d’intégration de l’alphabet Tolonge a été soumise au consortium Unicode (fichier PDF en anglais) en janvier 2023. Une police de caractère ainsi qu’une image de la disposition de clavier peuvent être téléchargées (EN) sur le site qui promeut la langue Kuruth (EN).
Les blocs Unicode 11DB0 à 11DEF lui sont attribués.
Beria Erfe, une écriture inspirée du marquage des chameaux
Le peuple Béri1, est une ethnie dont les membres se répartissent géographiquement entre les régions de Wadi-Fira et de l’Ennedi au nord-est du Tchad et la région du Darfour au nord-ouest du Soudan. Les Arabes les appellent Zaghawa, nom sous lequel le peuple Béri apparaît dans Wikipédia. Une appellation d’autant plus inadaptée qu’elle ne concerne, selon les historiens, qu’une partie du peuple Béri. La société Béri est de type clanique et chaque clan a ses marques spécifiques pour ses animaux, essentiellement des dromadaires.
Dans les années 1950, un instituteur, Adam Tajir a créé une écriture basée sur le marquage des dromadaires des clans (EN) Béri et que d’aucuns ont appelé « écriture des chameaux ». Cette écriture a fait ensuite l’objet d’amélioration en 2000. À la suite de quoi, l’écriture a été bien adoptée et présentée au Consortium Unicode en janvier 2024 (PDF, EN), par, notamment, l’auteur des modifications, un vétérinaire béri Siddick Adam Issa, sous le nom de « Beria Erfe ». L’alphabet se lit de gauche à droite et comporte vingt-cinq lettres, soit une collection de cinquante caractères en tout comprenant des minuscules et des majuscules. Il utilise aussi des signes diacritiques. Visuellement il fait un peu penser au Tiffinagh.
Pour que cet alphabet soit pleinement utilisé avec les outils d’écriture modernes il fallait une fonte et une disposition de clavier. Une image de cette dernière figure dans la proposition soumise à Unicode. Une police de caractère a été créée en 2007 sous l’égide du SIL (EN). Cette version ne répondait pas aux standards d’Unicode, mais on peut récupérer la version actuelle sur la page du projet Kedebideri (EN). Debian propose aussi un paquet mais qui n’est pas (pas encore ?) encodé selon les standards d’Unicode.
Les blocs Unicode 16EA0 à 16EDF lui sont attribués.
Le Tai Yo une écriture thai du Vietnam
Les Thai sont une minorité ethnique importante du Vietnam qui dispose de cinq écritures : le Tay noir, le Tay blanc, le Tay Dèng, le Tay yo qui vient de faire son entrée dans le registre Unicode et le Lai pao qui n’est plus utilisé.
L’écriture Tai Yo (PDF en anglais) :
occupe une place très à part dans l’ensemble des écritures thai du Vietnam. Elle s’écrit verticalement, de haut en bas, et les lignes se succèdent de droite à gauche sur le modèle de l’écriture chinoise. Les manuscrits se consultent en tournant les pages de la gauche vers la droite comme les anciens livres chinois. (Michel Ferlus Les Écritures thai du Vietnam in : Cahiers de linguistique - Asie orientale, vol. 35 2, 2006. pp. 209-239.)
Elle compte vingt-neuf consonnes plus huit qui sont placées uniquement en dernière position et treize voyelles ainsi que neuf signes indiquant une voyelle en position finale.
La police Tai Yo a été ajoutée à la collection des polices Noto de Google. Il existe également une disposition de clavier pour ordinateur. Les deux sont téléchargeables (EN) sur le site de Tools for indigenous languages on the web (outils pour les langues indigènes sur le web).
La demande d’intégration du Tay Yo à la norme Unicode a été faite en décembre 2022. Il occupe les blocs : 1E6C0 à 1E6FF.
Les autres ajouts, et ce qui ne figure pas dans cette version
Les émojis
Pas forcément l’aspect le plus intéressant d’Unicode, mais, au moins, le plus amusant. La version 17 (EN) nous en propose des sympathiques et qui figurent dans la police Noto Color empoji (EN). Ce sont :
- un visage déformé pour marquer l’anxiété, la panique, la surprise, etc., U+1FAEA,
- un nuage de bataille, du style de ce que l’on peut voir dans Astérix par exemple, U+1FAEF
- une créature velue, un yéti en fait, U+1FACB,
- une ballerine avec des variantes de couleur, U+1F9D1, U+200D et U+1FA70,
- un personnage avec des oreilles de lapin U+1F46F, déclinable en plusieurs variantes,
- des personnes en lutte (du catch ?), déclinable en plusieurs variantes, U+1F93C,
- un orque U+1FACD,
- une avalanche, U+1F6D8,
- un trombone U+1FA8A, à ne pas confondre avec ceux qui traînent sur vos bureaux U+1F4CE et qui sont entrés dans l’Unicode en 2010,
- et, pour finir et ranger tout ça : le coffre aux trésors U+1FA8E.
Le trognon de pomme qui avait résisté vaillamment jusqu’à la version bêta d’Unicode 17 ne figure finalement pas dans la version définitive. Mozilla l’avait ajouté sous la forme d’une pomme croquée rappelant le logo d’Apple.
Des symboles et des suppléments
Cette version Unicode ajoute des caractères supplémentaires à l’écriture Sharada qui contient les caractères historiques du cachemiri, du sanscrit et de diverses autres langues du nord du sous-continent indien utilisés du 8e au 20e siècle. L’Inde, rappelons-le, recense 270 langues parlées dont 22 langues officielles. Ce supplément ajoute sept voyelles nécessaires pour un usage contemporain de l’écriture, bloc U+11B60 à U+11B7F.
Le tangut (ou tangoute), un système d’écriture logographique d’un ancien peuple du nord-ouest de la Chine, se voit également doté d’un supplément de 128 caractères, U+18D00 à U+18D7F.
Des points de code, U+323B0 à U+3347F, sont également ajoutés à l’extension J (pour japonais) des idéographies unifiés chinois-japonais-coréens portant à 4 298 le nombre de signes recensés. Il s’agit de caractères rares et historiques japonais, coréens et vietnamiens.
Pour finir en majesté, cette version propose divers symboles supplémentaires, points de code U+1CEC0 à U+1CEFF, dont : seize symboles astronomiques (Flora U+ 1CEC, Victoria U+1CEC5 et Irène U+1CEC7 ont leur numéro de code), autant de symboles de géomancie (par exemple Lætitia U+CEE8 ou Rubeus U+1CEE4), quatre symboles de jeux d’échec et un symbole divers qui se trouve être un cercle blanc de taille moyenne avec une barre horizontale utilisé en chimie : U+1CEF0.
Et sur le plan technique ?
Très peu de nouveautés ou de changements significatifs pour cette version.
On peut noter la création d’une nouvelle de césure « Unambiguous_Hyphen (HH) » qui suit les modifications apportées au saut de ligne forcé : U+034F Combining grapheme joiner (combinaison de graphème), une nouvelle cédille U+00BB. Dans sa note de blog, Stéphane Bortzmeyer explique cela mieux que moi.
On pourra peut-être relever aussi que les attributs pour les propriétés obsolètes : Gr_Link, Hyphen, isc, kGB7, kJa, XO_NFC, XO_NFD, XO_NFKC, XO_NFKD, FC_NFKC ont été supprimés et qu’une annexe a été ajoutée sur les principes d’encodage de la base de données des hiéroglyphes égyptiens.
Remerciements (!?) et lectures complémentaires
Cette dépêche n’aurait pas été écrite si, sur Mastodon, Stéphane Bortzmeyer ne m’avait taguée pour me signaler que le trognon de pomme avait été éjecté d’Unicode 17. Ce qui m’importe assez peu à vrai dire, sauf en ce qui concerne le fonctionnement d’Unicode. Mais comme j’ai quelques bonnes manières, je l’en ai remercié en lui demandant des nouvelles du système d’écriture maya, ce qui était une gaffe parce qu’il m’a répondu en me parlant de l’écriture des chameaux. Un procédé parfaitement déloyal ! Mais j’imagine que je dois tout de même le remercier (j’ai appris plein de choses).
Et comme pour cette dépêche j’ai pas mal lu, je vous inflige la liste de ce que j’ai parcouru ou lu en plus des liens in-texte au cas où vous voudriez aussi poursuivre la lecture :
- Tubiana Marie-José, Tubiana Joseph. Un peuple noir aux confins du Tchad et du Soudan : les Beri aujourd’hui. In : Cahiers d’outre-mer. N° 103 - 26e année, Juillet-septembre 1973. pp. 250-261.
- Zakaria Fadoul Khidir, Anthropologie des populations tchadiennes : Les Béri du Tchad, L’Harmattan, 2016.
- Claude Rilly, Le méroïtique et sa famille linguistique, Vrin, 2010.
-
Selon les sources, Béri prend ou non un accent. Il en va de même pour Zaghawa qui est orthographié de différentes façons. ↩
Aller plus loin
- Unicode 17.00 : nouveautés et changements (117 clics)
- L’annonce officielle de la parution d’Unicode 17 (39 clics)
- La précédente dépêche sur Unicode 16 (31 clics)
# Ascii vaincu
Posté par devnewton 🍺 (site web personnel) . Évalué à 1 (+0/-2). Dernière modification le 12 septembre 2025 à 14:15.
Encore un assaut (en criant Tai Yo!) contre l'écoconception…
Le post ci-dessus est une grosse connerie, ne le lisez pas sérieusement.
[^] # Re: Ascii vaincu
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 6 (+3/-0). Dernière modification le 12 septembre 2025 à 14:28.
L'Ascii c'est assez limité en fait. Faut dire ce qui est : 159 801 caractères c'est tout de même un peu plus que 128.
Je n’ai aucun avis sur systemd
[^] # Re: Ascii vaincu
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 5 (+2/-0).
Les centaines d'extensions (standardisées ou non) de l'ASCII pour traiter différentes langues, et les heures perdues à rédiger des standards, définir des algorithmes de conversion entre les encodages, investiguer des problèmes d'interopérabilité, ce n'est pas ce qu'on peut appeler de l'éco-conception, mais plutôt une fausse bonne idée que l'on continue de payer pendant une cinquantaine d'années par la suite.
Je crois que cette idée est encore pire - en termes d'économies réalisées - que de supprimer les vieux e-mail?
[^] # Re: Ascii vaincu
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 5 (+2/-0). Dernière modification le 12 septembre 2025 à 16:19.
Je ne suis pas sûre de comprendre ta réponse. Mais je suis sûre d'une chose : les vieux e-mails ne permettent pas l'écriture tous les systèmes d'écriture utilisés, l'ascii encore moins. Ta position me paraît très ethno-centrée.
L'Unicode me paraît donc une réponse très adaptée, perfectible, sans doute, mais adaptée.
Je n’ai aucun avis sur systemd
[^] # Re: Ascii vaincu
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 5 (+3/-1).
Je me suis mal exprimé alors. J'essayais de dire justement que sans Unicode, on se retrouve avec tout un tas d'encodages locaux (iso 8859, codepage 850, macroman, et ça c'est juste pour les utilisations européennes de l'alphabet latin, pour le reste il y en a encore plein d'autres) et de problèmes de conversion. Penser que l'ASCII rend les choses plus simple que Unicode et permetrait de faire de l'éco-conception est donc une bêtise.
[^] # Re: Ascii vaincu
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3 (+0/-0).
Ça m'étonnait aussi de ta part.
En prime, de ce que je comprends une bonne partie du travail est fait dans les polices de caractère ce qui me paraît plus proche de l'écoconception que s'il fallait à chaque fois tout refaire.
Je n’ai aucun avis sur systemd
[^] # Re: Ascii vaincu
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 5 (+2/-0).
Je ne crois pas qu'on puisse tout faire avec uniquement les polices de caractères. Ouand on parle d'Unicode on pense en premier aux caractères et aux glyphes, mais il y a aussi les algorithmes pour déterminer les endroits où il est pertinent de placer un retour à la ligne (dans les cas simples, pas forcément pour les césures où des règles différentes s'appliquent pour plusieurs langues même si elles partagent un alphabet), ou même simplement de placer le curseur lorsqu'on édite du texte. Ce qui peut être un peu compliqué si par exemple on a des chiffres "arabes" (écrits de gauche à droite, au milieu d'un texte dans une langue écrite de droite à gauche.
Heureusement, cette partie d'Unicode évolue moins que le reste, et les nouveaux caractères se trouvent simplement étiquettés avec les informations nécessaires à l'algorithme. Tout au plus il y a de temps en temps quelques caractères qui étaient mal caractérisés et donc des corrections sur ces métadonnées.
Mais finalement, oui, tout ce travail peut être fait une bonne fois pour toutes, ce qui est très bien.
[^] # Re: Ascii vaincu
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 4 (+1/-0).
En fait ça dépend du format de police, c'est ce que font les polices graphite justement. Et c'est très précieux pour les systèmes d'écriture complexes et peu utilisés. Alors qu'effectivement, le format OpenType a un script qui est "une bonne fois pour toutes".
À mon avis, et j'ai failli l'écrire, Unicode est arrivé à sa maturité. Je ne peux me baser que sur les deux dernières versions que j'ai traité , ce qui reste un échantillon statistique très mince, mais effectivement, les modifications techniques d'Unicode semblent plus être liées à un ajustement dans le cadre de l'intégration des systèmes d'écriture ou des bases de données que des changement fondamentaux.
Je n’ai aucun avis sur systemd
[^] # Re: Ascii vaincu
Posté par HL . Évalué à 1 (+0/-0).
Si j'ai bien compris tu veux dire la forme occidentale des « chiffres arabes » insérées dans un texte écrit en arabe, donc de droite à gauche ?
[^] # Re: Ascii vaincu
Posté par devnewton 🍺 (site web personnel) . Évalué à 4 (+1/-0).
Il suffit d'arrêter d'utiliser des écritures avec des caractères non ascii!
Le post ci-dessus est une grosse connerie, ne le lisez pas sérieusement.
[^] # Re: Ascii vaincu
Posté par Perger . Évalué à 1 (+1/-0).
C'est un peu un faut débat. ASCII est inclus dans Unicode.
Dans la représentation utf-8 de l'unicode, le codage binaire du jeu de caractère ASCII est le même que celui de l'ASCII : le 1er bit à 0 indique que les 7 suivants codent un caractère "ASCII".
C'est pour les caractères non ASCII d'iso 8859-1 que cela dérive, en particulier pour nos caractères accentués qui nécessitent 2 octets pour les représenter en utf-8.
[^] # Re: Ascii vaincu
Posté par Pol' uX (site web personnel) . Évalué à 4 (+2/-0).
Devnewton essaie de dire, avec une légère pointe d'ironie qui lui est propre, qu'il suffirait d'arrêter de communiquer pour qu'il n'y ait pas de tels problèmes à gérer.
Adhérer à l'April, ça vous tente ?
[^] # Re: Ascii vaincu
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 10 (+8/-0).
Mais comme il se refuse à utiliser les caractères prévus à cet effet pour indiquer qu'il n'est pas sérieux (points d'ironie, marqueurs de sarcasme, emojis divers, etc.), personne ne le comprend.
[^] # Re: Ascii vaincu
Posté par Stéphane Bortzmeyer (site web personnel, Mastodon) . Évalué à 1 (+0/-1).
Mais les lecteurices de LinuxFr sont super-intelligent·es et donc ont toustes compris que c'était de l'ironie (sans avoir besoin de la béquille intellectuelle qu'est le smiley).
[^] # Re: Ascii vaincu
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3 (+0/-0).
Plutôt un troll en fait. Mais je te renvoie à la discussion sur cette dépêche.
Je n’ai aucun avis sur systemd
[^] # Re: Ascii vaincu
Posté par BAud (site web personnel) . Évalué à 3 (+1/-0).
quelle discussion précisément ?
celle-ci ? tu sais il y a le
#
qui permet de donner le lien contextualisé, autant utiliser les fonctionnalités de LinuxFr.org ;-)Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.