Sortie de uchardet 0.0.8 pour la détection de codages de caractères

Posté par  (site web personnel, Mastodon) . Édité par Julien Jorge et Benoît Sibaud. Modéré par Benoît Sibaud. Licence CC By‑SA.
63
21
déc.
2022
C et C++

uchardet est une bibliothèque C/C++ de détection de codage de caractère (par exemple UTF-8 ou ISO-8859-15 sont ce qu’on appelle des « codages de caractères » ou « jeux de caractères ») basée sur des caractéristiques statistiques des langages naturels et membre du projet Freedesktop. Elle peut détecter quelques dizaines de codages de caractères.

Le projet fournit également un outil en ligne de commande pour tester très simplement le codage de vos fichiers ou de flux de texte.

uchardet version 0.0.8 est sortie ce 8 décembre 2022.

Journal Sortie de WinCompose 0.7.5

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
61
9
jan.
2016
Ce journal a été promu en dépêche : Sortie de WinCompose 0.7.5.

(TL;DR: j’ai écrit un logiciel libre pour Windows pour avoir une touche Compose et qui est franchement bien foutu, essayez-le)

J’utilise Linux depuis 20 ans, mais mon travail m’amène à souvent utiliser Windows. La pauvreté de l’offre en matière de configuration du bureau (window manager et mécanismes d’input) est une source de frustration infinie et un frein certain à ma productivité par rapport à mon utilisation d’Unix, et je ne pense pas être le seul.

(…)

Des histoires de caractères

Posté par  (site web personnel, Mastodon) . Édité par Benoît Sibaud, Maclag et gouttegd. Modéré par Benoît Sibaud. Licence CC By‑SA.
Étiquettes :
52
25
août
2022
Culture

Pour ce voyage dans le temps et dans l’espace, le Chemin de fer Transimpressux, vous emmènera dans le monde fabuleux de la fabrication des lettres. Cette fois-ci, on partira de la Venise de la deuxième moitié du XVe siècle. On escaladera les montagnes du Tibet, on fera un tour du côté de la Phénicie, de la Grèce et de la Rome antique, on ira à Nancy mais pas pour déguster des bergamotes, on passera par la Terre du Milieu (mais oui) pour terminer notre parcours du côté de la banquise, pas très loin de la Finlande, non sans avoir dit bonjour à Jost* au passage.

Le bar du Transimpressux a été rechargé avec, notamment, cinquante variétés de thé, de la bière artisanale, des galettes pomme-noisette et du pain perdu au chorizo (c’est tendance).

Le Transimpressux

Journal flatlatex et flatlatex-gui

Posté par  . Licence CC By‑SA.
Étiquettes :
49
4
déc.
2021

Il y a quelques années, j'utilisais intensivement un petit outil que je trouvais merveilleux: latex-to-unicode. Pour faire simple, c'était un outil minimaliste, qui lançait une petite fenêtre, on lui tapait un peu de maths en LaTeX (par exemple \forall\alpha, \exists\beta, 2\beta=\alpha, et on obtenait ∀α, ∃β, 2β=α dans le presse papier. Bref, un petit outil bien pratique pour mettre un peu d'unicode, sans se rappeller de toutes les tables (il faut être inhumain pour cela).

Sauf qu'il se (…)

Journal Unicode 7.0 is out

Posté par  (site web personnel) . Licence CC By‑SA.
46
17
juin
2014

L'internet ne parle plus que de cela: le formidable consortium Unicode, dans sa grande mission normalisatrice, vient d'officialiser la 7ème mise à jour majeure de notre Grand Alphabet, celui que nous auront à expliquer et à justifier le jour où notre route croisera celle de sympathiques extraterrestres. Unicode est construit pour résister aux assauts des siècles, on parle ici de l'équivalent alphabétique de la pyramide de kheops.

Tout ça pour dire que les éminents membres du consortium unicode ont une (…)

Journal toutf8: autodétecter et convertir de n'importe quel encodage de caractères vers UTF8

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
42
23
nov.
2015

Les fichiers textes encodés avec des codecs exotiques, c'est toujours énervant. Il existe des tonnes et des tonnes normes d'encodage de caractères différentes, parfois partiellement compatibles entre elles, qui font qu'ouvrir un fichier texte est parfois une galère.

Personnellement, j'ai souvent le problème avec des sous-titres de films en français où en russes, qui ne sont jamais dans le même encodage de caractère, et dont il faut à chaque fois deviner l'encodage, avant de le convertir.

Pour résoudre ce problème (…)

confusable-homoglyphs : une bibliothèque pour gérer les caractères qui se ressemblent

Posté par  (site web personnel, Mastodon) . Édité par Xavier Teyssier, Davy Defaud et Benoît Sibaud. Modéré par Pierre Jarillon.
39
14
mar.
2019
Java

Bonjour tout le monde,

J’ai l’honneur de vous présenter une nouvelle bibliothèque Java (en fait compatible avec n’importe quel langage qui utilise la machine virtuelle Java, normalement) : confusable-homoglyphs. « Nouvelle » dans sa version Java, car c’est en réalité un portage d’une bibliothèque Python. Notez qu’il en existe aussi une version PHP.

C’est un outil sous licence Apache 2.0 qui permet de gérer directement au sein d’une application les caractères Unicode qui se ressemblent, et donc qui sont source de confusion.

Journal Unicode

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
31
15
avr.
2011

Salut,

Je m'interroge depuis longtemps sur la présence de caractères assez "bizarres" dans unicode, par exemple le fameux bonhomme de neige , ou les fontes windings etc. J'avais crû comprendre que c'était pour des raisons historiques.

Je ne connais pas le fonctionnement du consortium unicode, ni la procédure de soumission et d'acceptation de nouveaux caractères mais je m'interroge sur leur motivation quand ils continuent à ajouter des caractères tels que:

WOMAN WITH BUNNY EARS

SMILING CAT FACE WITH HEART-SHAPED EYES

(…)

Journal Campagne d'hameçonnage, Firefox et Chrome vulnérables.

Posté par  (site web personnel) . Licence CC By‑SA.
31
17
avr.
2017

Bonjour Nal<

Quelques mots rapides pour prévenir d'une faiblesse dans les navigateurs Firefox et Chrome pour leurs versions actuelles (respectivement 52 et 57.) : il s'agit d'un problème avec l'usage de l'unicode dans l'enregistrement de domaines permettant de faire passer ceux-ci pour d'autres domaines. Firefox et Chrome n'y voient que du feu.

Concrètement : on clique sur un lien malicieux (qui lui même présente un nom légitime lors du passage de la souris en survol) qui nous amène vers un (…)

Nouvelle version d'Unicode : la 6.1.0

Posté par  . Édité par Benoît Sibaud, Lucas Bonnet et baud123. Modéré par Benoît Sibaud. Licence CC By‑SA.
Étiquettes :
27
7
fév.
2012
Doc

La dernière version d'Unicode a été publiée ce 31 janvier. C'est une version mineure ajoutant 732 nouveaux caractères et portant leur nombre à 110 116. La dernière version majeure, la 6.0, date de février 2011.

Les nouveaux blocs sont :

  • 08A0..08FF Arabic Extended-A
  • 1CC0..1CCF Sundanese Supplement
  • AAE0..AAFF Meetei Mayek Extensions
  • 10980..1099F Meroitic Hieroglyphs
  • 109A0..109FF Meroitic Cursive
  • 110D0..110FF Sora Sompeng
  • 11100..1114F Chakma
  • 11180..111DF Sharada
  • 11680..116CF Takri
  • 16F00..16F9F Miao
  • 1EE00..1EEFF Arabic Mathematical Alphabetic Symbols

Unicode est développé dans le but de remplacer les pages de codes nationales afin de faciliter les échanges mondiaux par le bais de l'outil informatique. Il s'agit de donner à chaque caractère de n'importe quel système d’écriture un nom et un identifiant unique, quelle que soit la plate-forme informatique.

Ce travail est coordonné par le Consortium Unicode (association privée à but non lucratif).

DChars, pour lire/écrire et modifier des caractères unicodes complexes

Posté par  (site web personnel) . Édité par baud123, claudex, Benoît Sibaud, patrick_g et Xavier Teyssier. Modéré par Xavier Teyssier. Licence CC By‑SA.
27
23
mar.
2013
Python

Dans le cadre d'un projet, j'ai eu besoin d'un module pour analyser et modifier les caractères complexes de certains systèmes d'écriture, en particulier en hébreu, grec ancien ou sanskrit. Mon code commence à devenir utilisable, je le publie donc sous une licence GLPv3 : DChars est un module pour Python3.

J'ai essayé de coller à certains principes facilitant le travail en communauté ainsi que l'écriture de code lisible : tests unitaires, code et commentaires écrits en anglais, surveillance de la qualité du code par Pylint, documentation fournie et écrite avec Sphinx.

Concrètement, je cherche d'autres personnes susceptibles d'utiliser ou d'améliorer mon module. Si vous utilisez les langues concernées, dites-moi si ce que j'ai fait vous convient ! En particulier, si certains connaissent très bien la norme ISO 15919, je suis preneur… De façon générale, n'hésitez pas à faire remonter vos remarques, je n'attends que ça, surtout si elles sont négatives !

Journal Jouons avec Unicode: Tchars, un Dchars pour Troff

Posté par  (site web personnel) . Licence CC By‑SA.
22
31
oct.
2013

Vous n'avez pas manqué de suivre ici les aventures de Dchars, de notre ami Xavier Faure. Dchars permet entre autres de transformer une suite codifiée de caractères ascii en caractères utf8 complexes. Par exemple, il transforme le beta-code en grec polytonique. Dans ce journal, vous découvrirez l'histoire de Tchars, le sosie de Dchars.

Tchars, un Dchars pour Troff

Ayant justement besoin d'écrire quelques mots en grec polytonique dans ma thèse, je me suis penché dans les sources de (…)

Journal Profil validé

Posté par  (Mastodon) . Licence CC By‑SA.
21
22
fév.
2023

Ce qu'il y a de bien sur linuxfr, c´est qu'on peut aller dans les options et changer son champ prénom et nom.

Du coup, unicode étant votre ami et la plupart des gens utilisant par défaut des polices supportant un large éventail de glyphes vous pouvez avoir votre petite coche sur fond bleu sans devoir payer en monnaie immatérielle une somme mensuelle ou annuelle pour vous targuer d'avoir un profile vérifié. Note: marche aussi sur mastodon ou tout autre (…)

Journal Vous avez dit "caractère" ?

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
21
4
sept.
2022

Ces derniers jours, j'ai cherché à mieux comprendre comment gérer UTF-8 dans une de mes applications hobby et j'ai appris pas mal de choses :)

D'abord, j'avais oublié que ASCII était codé sur 7 bits et non pas 8 bits. C'est grâce à ça que UTF-8 est automatiquement compatible avec ASCII (UTF-8 est codé avec des blocs de 8-bits, il leur a suffit de dire que le premier bit est 0 pour les 127 premiers Unicodes encodé en UTF-8).

Les (…)

Journal Code2000 : Usurpation ou libération ? Que fait la police ?

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
20
24
jan.
2012

Je suis sûr que vous êtes nombreux ici à connaître, voire à utiliser la fameuse police Code2000, même si elle n’était disponible qu’en partagiciel : c’était une des police les plus complètes, qui permettait d’afficher un très grand nombre de caractères Unicode.

J’avais été en contact avec son auteur James Kass, il y a quelques années, car je lui avais demandé l’autorisation d’inclure Code2000 à l’arbre des ports de FreeBSD, ce qu’il avait accepté avec plaisir, et nous (…)