Sortie de uchardet 0.0.8 pour la détection de codages de caractères

Posté par  (site web personnel, Mastodon) . Édité par Julien Jorge et Benoît Sibaud. Modéré par Benoît Sibaud. Licence CC By‑SA.
63
21
déc.
2022
C et C++

uchardet est une bibliothèque C/C++ de détection de codage de caractère (par exemple UTF-8 ou ISO-8859-15 sont ce qu’on appelle des « codages de caractères » ou « jeux de caractères ») basée sur des caractéristiques statistiques des langages naturels et membre du projet Freedesktop. Elle peut détecter quelques dizaines de codages de caractères.

Le projet fournit également un outil en ligne de commande pour tester très simplement le codage de vos fichiers ou de flux de texte.

uchardet version 0.0.8 est sortie ce 8 décembre 2022.

Forum général.général Utilisation d'iconv pour encoder tout vers UTF-8

Posté par  . Licence CC By‑SA.
Étiquettes :
2
21
jan.
2021

Salut :)

J'ai un projet en Java + JavaFX actuellement et je reprend du code d'ancien étudiants

Dans ce code il y a des fichiers qui sont encodés en us-ascii ou windows-1252.

je souhaite que l'entièreté des fichiers soit ré-encodé en utf-8 (j'ai choisi iconv) mais je n'arrive pas à bien l'utiliser

J'utilise cette ligne pour connaître l'encodage du fichier:
file -i fichier

Exemple de retour : parseur/XMLTags.java: text/plain; charset=us-ascii

J'utilise iconv ainsi :
iconv -f US-ASCII -t UTF-8 fichier (…)

Journal toutf8: autodétecter et convertir de n'importe quel encodage de caractères vers UTF8

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
42
23
nov.
2015

Les fichiers textes encodés avec des codecs exotiques, c'est toujours énervant. Il existe des tonnes et des tonnes normes d'encodage de caractères différentes, parfois partiellement compatibles entre elles, qui font qu'ouvrir un fichier texte est parfois une galère.

Personnellement, j'ai souvent le problème avec des sous-titres de films en français où en russes, qui ne sont jamais dans le même encodage de caractère, et dont il faut à chaque fois deviner l'encodage, avant de le convertir.

Pour résoudre ce problème (…)

Forum Programmation.autre Comment faire pour diff ignore les problèmes d'encodages ?

Posté par  . Licence CC By‑SA.
Étiquettes :
0
30
oct.
2015

Bonjour à tous,

je suis en train de modifier certaines parties d'un projet en PHP, et la première chose que j'ai faite, c'est de transformer tous les documents de ISO-8859-1 vers UTF-8, à grands coups de "iconv".

Ensuite j'ai attaqué les corrections de codes proprement dites, et maintenant, je voudrais fournir au programmeur original mes modifications. Sauf que le fichier produit par "diff" est complètement pollué par les soucis d'accents, et quasi inutilisable (le mainteneur original ne souhaite pas passer (…)

Forum Programmation.php Problème d'encodage

Posté par  . Licence CC By‑SA.
Étiquettes :
1
22
jan.
2015

Bonjour,

j'ai installé un site pour valider des compétences pour des étudiants de BTS AM sur un LAMP (debian 7 + apache 2 + mysql + php).

J'ai des problèmes d'encodage et j'aimerais pouvoir les résoudre sans toucher au code PHP. A noter que ce site fonctionnait avant sa migration mais était installé sur une version plus ancienne de debian (5 ou 6). A noter aussi que j'en ai installé un autre sans migration de base et que le problème (…)