Journal toutf8: autodétecter et convertir de n'importe quel encodage de caractères vers UTF8

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
42
23
nov.
2015

Les fichiers textes encodés avec des codecs exotiques, c'est toujours énervant. Il existe des tonnes et des tonnes normes d'encodage de caractères différentes, parfois partiellement compatibles entre elles, qui font qu'ouvrir un fichier texte est parfois une galère.

Personnellement, j'ai souvent le problème avec des sous-titres de films en français où en russes, qui ne sont jamais dans le même encodage de caractère, et dont il faut à chaque fois deviner l'encodage, avant de le convertir.

Pour résoudre ce problème (…)

Suivi — Commentaires Problème avec les caractères unicode

#1374 Posté par  . État de l’entrée : corrigée. Assigné à Bruno Michel. Licence CC By‑SA.
Étiquettes :
15
17
juin
2014

Lorsque j'essaie de commenter un journal en utilisant le caractère unicode "thumbs up" (U+1F44D) j'arrive sur la « page oops! ». Testé également en créant une entrée de forum.

Pas de problème pour d'autre caractère, tel HEAVY BLACK HEART (U+2764)

Journal Unicode 7.0 is out

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
46
17
juin
2014

L'internet ne parle plus que de cela: le formidable consortium Unicode, dans sa grande mission normalisatrice, vient d'officialiser la 7ème mise à jour majeure de notre Grand Alphabet, celui que nous auront à expliquer et à justifier le jour où notre route croisera celle de sympathiques extraterrestres. Unicode est construit pour résister aux assauts des siècles, on parle ici de l'équivalent alphabétique de la pyramide de kheops.

Tout ça pour dire que les éminents membres du consortium unicode ont une (…)

Journal Jouons avec Unicode: Tchars, un Dchars pour Troff

Posté par  (site web personnel) . Licence CC By‑SA.
22
31
oct.
2013

Vous n'avez pas manqué de suivre ici les aventures de Dchars, de notre ami Xavier Faure. Dchars permet entre autres de transformer une suite codifiée de caractères ascii en caractères utf8 complexes. Par exemple, il transforme le beta-code en grec polytonique. Dans ce journal, vous découvrirez l'histoire de Tchars, le sosie de Dchars.

Tchars, un Dchars pour Troff

Ayant justement besoin d'écrire quelques mots en grec polytonique dans ma thèse, je me suis penché dans les sources de (…)

DChars, pour lire/écrire et modifier des caractères unicodes complexes

Posté par  (site web personnel) . Édité par baud123, claudex, Benoît Sibaud, patrick_g et Xavier Teyssier. Modéré par Xavier Teyssier. Licence CC By‑SA.
27
23
mar.
2013
Python

Dans le cadre d'un projet, j'ai eu besoin d'un module pour analyser et modifier les caractères complexes de certains systèmes d'écriture, en particulier en hébreu, grec ancien ou sanskrit. Mon code commence à devenir utilisable, je le publie donc sous une licence GLPv3 : DChars est un module pour Python3.

J'ai essayé de coller à certains principes facilitant le travail en communauté ainsi que l'écriture de code lisible : tests unitaires, code et commentaires écrits en anglais, surveillance de la qualité du code par Pylint, documentation fournie et écrite avec Sphinx.

Concrètement, je cherche d'autres personnes susceptibles d'utiliser ou d'améliorer mon module. Si vous utilisez les langues concernées, dites-moi si ce que j'ai fait vous convient ! En particulier, si certains connaissent très bien la norme ISO 15919, je suis preneur… De façon générale, n'hésitez pas à faire remonter vos remarques, je n'attends que ça, surtout si elles sont négatives !

Forum Programmation.autre unicode : b en exposant [résolu]

Posté par  (site web personnel) .
Étiquettes :
1
28
oct.
2012

Bonjour,
je cherche le code unicode correspondant à un b (minuscule) en exposant, un peu comme ² (deux en exposant). La liste officielle ne me permet de trouver ce que je cherche.

En passant, dites-moi si ce genre de question est hors-sujet par rapport au forum de Linuxfr.org.

Merci d'avance !

** PS : toutes mes excuse, la liste à consulter est plutôt celle-ci : mon caractère est le 1D47. Désolé pour le flood !

Journal Émoticons d'outre-tombe

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
14
5
avr.
2012

J'ose confesser mon agacement à l'usage des émoticons qui parsèment la prose des gens branchés en cet âge du silicium. Je suis d'une autre époque, celle qui s'enflammait à la lectures des grands romantiques ; vous en avez pour preuve ici, en ce titre, des mânes de celui qui repose à une portée de mousquet des remparts de Saint-Malo que j'arpente lorsque mon esprit bouillonnant d'algorithmes nécessite un salutaire repos. Que vous dire de mon abasourdissement lorsque, en ce jour funeste, (…)

Journal Unicode c'est beau, mais où sont les polices ?

Posté par  .
Étiquettes :
15
11
fév.
2012

Unicode c'est surement une bonne idée. Mais en attendant, les polices ne suivent pas. Par exemple, pas de hiéroglyphes égyptiens... Et vous que voyez-vous parmi cet ensemble de caractères ? Quelles sont les bonnes polices à installer ? Quelles sont celles qui méritent que l'on se penche dessus ?

Lien (attention, javascript hostile)

Nouvelle version d'Unicode : la 6.1.0

Posté par  . Édité par Benoît Sibaud, Lucas Bonnet et baud123. Modéré par Benoît Sibaud. Licence CC By‑SA.
Étiquettes :
27
7
fév.
2012
Doc

La dernière version d'Unicode a été publiée ce 31 janvier. C'est une version mineure ajoutant 732 nouveaux caractères et portant leur nombre à 110 116. La dernière version majeure, la 6.0, date de février 2011.

Les nouveaux blocs sont :

  • 08A0..08FF Arabic Extended-A
  • 1CC0..1CCF Sundanese Supplement
  • AAE0..AAFF Meetei Mayek Extensions
  • 10980..1099F Meroitic Hieroglyphs
  • 109A0..109FF Meroitic Cursive
  • 110D0..110FF Sora Sompeng
  • 11100..1114F Chakma
  • 11180..111DF Sharada
  • 11680..116CF Takri
  • 16F00..16F9F Miao
  • 1EE00..1EEFF Arabic Mathematical Alphabetic Symbols

Unicode est développé dans le but de remplacer les pages de codes nationales afin de faciliter les échanges mondiaux par le bais de l'outil informatique. Il s'agit de donner à chaque caractère de n'importe quel système d’écriture un nom et un identifiant unique, quelle que soit la plate-forme informatique.

Ce travail est coordonné par le Consortium Unicode (association privée à but non lucratif).

Journal Code2000 : Usurpation ou libération ? Que fait la police ?

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
20
24
jan.
2012

Je suis sûr que vous êtes nombreux ici à connaître, voire à utiliser la fameuse police Code2000, même si elle n’était disponible qu’en partagiciel : c’était une des police les plus complètes, qui permettait d’afficher un très grand nombre de caractères Unicode.

J’avais été en contact avec son auteur James Kass, il y a quelques années, car je lui avais demandé l’autorisation d’inclure Code2000 à l’arbre des ports de FreeBSD, ce qu’il avait accepté avec plaisir, et nous (…)

Journal Unicode

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
31
15
avr.
2011

Salut,

Je m'interroge depuis longtemps sur la présence de caractères assez "bizarres" dans unicode, par exemple le fameux bonhomme de neige , ou les fontes windings etc. J'avais crû comprendre que c'était pour des raisons historiques.

Je ne connais pas le fonctionnement du consortium unicode, ni la procédure de soumission et d'acceptation de nouveaux caractères mais je m'interroge sur leur motivation quand ils continuent à ajouter des caractères tels que:

WOMAN WITH BUNNY EARS

SMILING CAT FACE WITH HEART-SHAPED EYES

(…)

Suivi — Suivi Affichage des caractères spéciaux (sous Win32)

#180 Posté par  . État de l’entrée : invalide. Assigné à Bruno Michel.
Étiquettes :
3
23
fév.
2011

Chez moi (cf: Chromium sous Archlinux) l'affichage du site est parfait… par contre au boulot je suis obligé d'utiliser Windows Xp et avec Chrome (même soucis si je bascule sur l'obsolète IE) j'ai un problème d'affichage avec certains caractères spéciaux.

Par exemple, les espaces insécables ne s'affichent pas correctement mais je vois à la place un petit rectangle vide :

Une piste peut-être…

Si j'affiche la source de la page html, les espaces insécables sont aussi représentés par des rectangles.