D'après cet article sur FirefoxOS Central, Firefox OS continuera à être développé, et notamment le cas des TVs est explicitement cité comme ayant de l'avenir. Apparemment ce serait seulement la partie Firefox OS pour téléphone qui est arrêtée (du moins avec support officiel par Mozilla, c'est à dire que des constructeurs pourraient décider d'eux-même de fournir Fx OS sans contracter Mozilla pour le support OS, bien que clairement cela a peu de chance d'arriver, si le dév principal lui-même ne croit plus à son logiciel pour cet usage).
Ensuite je suis pas certain que la news soit très officielle, car ce site, malgré son nom, n'a pas l'air un site Mozilla officiel, mais communautaire (dites moi si je me trompe). En outre, déjà que certains dans les commentaires ici semblent dire que l'évolution de Firefox OS était lente quand c'était clairement une des priorités de la fondation, si en plus le développement ralentit, avec moins de dévs affectés, et que ce n'est plus une cible prioritaire de Mozilla, ça ne paraît pas très bon pour autant pour Firefox OS.
L'avenir nous le dira.
En tous cas, c'est dommage de voir une alternative mourir, bien que je dois avouer ne jamais vraiment avoir cru en le tout-web. Notamment je peux tout à fait comprendre qu'un focus soit mis sur certaines technologies, voire un langage de programmation, mais je n'ai jamais compris pour autant que Mozilla interdise les applications non-web. En particulier, j'aurais bien aimé pouvoir compiler des apps natives (donc C, C++ ou tout langage compilé) pour Firefox OS, ce qui n'aurait pas été un problème (c'est du Linux derrière, rien de bien exotique), mais même d'ailleurs dans d'autres langages de scripts (python ou quoi que ce soit).
Sur Android par exemple, le focus est sur le Java, et tout est fait pour faciliter le dév avec Java, mais il reste possible de compiler un programme développé dans d'autres langages. Là — sauf erreur — Mozilla semblait vouloir interdire l'utilisation de tout autre langage que les technos web. Donc un filtre en imposant des choix technologiques aux développeurs. J'ai toujours considéré cela comme une grosse erreur et aussi assez rédhibitoire pour beaucoup. :-/
Tout ça pour dire, les choix faits n'avaient peut-être pas été les meilleurs pour attirer les dévs.
Mais ça reste dommage car je soutiens Mozilla et les alternatives Libres de manière générale.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Ah effectivement, j'ai entendu le terme de "raccrocheur scolaire" aussi, ce qui correspond au cas de jeunes qui ont "décroché", et qui essaient maintenant de "raccrocher".
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Bienheureux soient-ils : peu nombreux sont les gens qui peuvent en prétendre autant.
En effet, peu nombreux sont-ils.
Il y a bien des gens comme moi qui essaient d'en sortir à ma façon, mais ça a un prix: rarement de domicile stable, pas de salaire stable, peu du confort que beaucoup qui lisent ici estiment même être un truc de base. Mais c'est un choix, et comme je suis pas matérialiste, je me fiche d'avoir du matos. Et même avec tout ça, je suis encore bien dans le système malheureusement. Si tu penses être en dehors de ce système, j'aimerais bien savoir exactement comment tu vis.
Pour ces jeunes, ils aimeraient bien simplement avoir un job avec salaire qui tombe tous les mois, etc. Ce n'est sûrement pas à moi de leur faire la morale sur "le système est mauvais, restez dehors". On leur présente déjà une alternative intéressante avec des logiciels Libres, mais on sait très bien que pour beaucoup (peut-être tous même!) d'entre eux, dès qu'ils trouveront un nouveau stage ou un boulot, si ce n'est pas du tout dans ce milieu, ils risquent d'oublier même la notion d'alternative et de logiciel Libre. Il faut bien manger, comme on dit. C'est pas grave, on sême une petite graine, mais tout jardinier sait que toutes les graines ne donnent pas forcément l'arbuste souhaité (ce qui n'est pas forcément un mal!). Le Libre, c'est pas une secte, on n'est pas là pour endoctriner des gens, ni non plus pour détruire le système à tous prix (même lorsqu'on n'y adhère pas).
Ou bien il doit juste s'agir d'une expression politiquement correcte de merde rebattue une mille-et-unième fois.
Il s'agit en effet peut-être d'une expression politiquement correcte, si tu veux, ou maladroite de ma part. C'est très possible aussi.
Déjà j'aurais dû dire de façon plus complète "sorti du système scolaire" (cf. un autre message), car ils sont quand même (comme nous tous) dans le système. Comme je disais plus haut, y a pas grand monde — sinon personne — qui peut prétendre être hors du système.
Mais t'aurais appelé ça comment? "Jeunes de banlieues"? C'est sûr, c'est moins politiquement correcte, mais c'est surtout malsain (une dichotomie inutile) et faux (on en trouve aussi en plein cœur de Paris des gens un peu perdus dans le système scolaire et professionnel).
Ce sera mon dernier message sur ce fil trollesque.
Par contre j'accepte avec plaisir les termes alternatifs (sans l'enrober d'insultes) pour une prochaine news. C'est plus constructif de proposer. Il est toujours dur de trouver les bons mots sans avoir l'impression d'insulter certaines parties. On peut appeler cela du politiquement correct si on veut, mais en l'occurrence, je ne vois pas où est le mal car dans ce sujet, je ne vois pas l'intérêt d'être insultant envers qui que ce soit.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
En effet, il manque clairement un tel mot. "systeme éducatif" ou "système scolaire". Ces jeunes sont bien dans le système de manière générale.
On peut parler d'insertion professionnelle aussi, il me semble.
Je n'ai pas forcément les bons mots, je ne suis pas un expert du marketing social. :-)
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Le circuit d'Argenteuil n'est pas terminé. C'est donc normal qu'il ne soit pas dispo. On le mettra en ligne, c'est sûr à 100%, une fois le stage des jeunes achevé.
Par contre, je pense que le circuit de Tours (qui a été fait il y a quelques temps, ce fut la première expérience sur ce concept) devrait être dispo quelque part. Mais j'avoue que j'ai pas cherché. Je demanderai demain à un des animateurs du projet de Tours qui vient nous aider sur Paris. Et si c'est pas en ligne, je le pousserai pour mettre le circuit en ligne (car ce serait dommage en effet).
Un truc que je n'ai pas dit, c'est que les jeunes dirigeront aussi quelques ateliers demain sur les diverses étapes du processus. Qui sait? Vous pourriez vous même apprendre de ces jeunes, et ressortirez peut-être de là avec toute la connaissance pour modéliser votre propre quartier et en faire une piste SuperTuxKart?
En fait je me dis que je tenterais bien l'expérience sur Paris (dans le cadre de l'association LILA), pas forcément avec des jeunes en difficulté dans un contexte professionnalisant comme là, mais avec quiconque le souhaite. Enfin pas maintenant, car je ne peux pas créer le temps pour ça. Mais peut-être un jour proche, qui sait.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Oui, ben je sais pas. J'utilise le debugger inclus dans Firefox (touche F12) pour voir les headers, dans l'onglet network. Il me donnait que les headers copiés plus haut, mais je me rends compte que si je fais "edit and resend", la nouvelle requête a plus de headers, avec notamment le Content-type. C'est étrange. Je sais pas trop comment ce debugger marche (et si même c'est là le problème).
T'utilises quoi pour voir les headers?
Enfin bon, en effet, en renvoyant une seconde fois la requête donc, j'ai pu voir que le serveur annonce de l'UTF-8.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Sur desktop, pas trop, mais sur mobile, ça m'arrive tout le temps. Soit en cliquant à côté (par exemple quand je veux cliquer sur "Lire la suite" qui est juste au dessus des liens de pertinentage), soit en cliquant quand je voulais scroller, etc.
Et c'est vrai que c'est très énervant, notamment car de base je n'utilise pas le système de pertinentage. Je pertinente/inutile très rarement de moi-même, et donc mon ratio de pertinentage est très vraisemblablement en faveur des erreurs!
Ce serait vraiment bien de pouvoir annuler un "vote" pertinent/inutile.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Donc il semble que Firefox n'ait pas suivi les indications de la page au contraire.
Donc ton commentaire m'étonne car il donne l'impression que tu as vérifié tout cela et trouve, à l'inverse de moi, mention de UTF-8 dans les headers HTTP et dans le html. Est-ce le cas?
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Sur le bugzilla GNOME qui nous héberge, il y a le concept des bugs "GNOME-love" qui sont exactement ce dont tu parles (des bugs probablement faciles "pas trop compliqués" à corriger qui sont un bon point d'entrée dans un projet).
Ce serait en effet une bonne idée de mettre ce lien sur la page "Get Involved". En fait, comme de nombreuses autres pages, il faudrait clairement revoir le contenu de cette page, bien trop touffu. À l'heure actuelle, c'est simplement une reprise du contenu existant sur l'ancien site.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Sérieux? Je viens de regarder le site de ce logiciel, et dès la description du logiciel (emphases de moi):
Pixelmator for Mac is a powerful, fast, and easy-to-use image editor. It lets you enhance and touch up photos, sketch, draw and paint, add text and shapes, apply dazzling effects, and do so much more. Pixelmator is built and developed from the ground up for the Mac, taking full advantage of the latest OS X features and technologies.
Ils n'utilisent pas le mot "puissant"? Ah si, c'est le 6ème mot ("powerful") de la description! Je compte ce mot 9 fois sur la page principale (quasi à chaque description de fonctionnalité en fait).
C'est pas vague aussi "taking full advantage of the latest OS X features and technologies"?
L'ensemble de la page est du même acabit.
Note que je dis pas que c'est pas similaire sur la page de GIMP, mais je fais juste remarquer à quel point cette comparaison est vide de sens car le site de cet autre logiciel fait exactement ce que le gars dit qu'il ne fait pas.
Aussi je comprendrai jamais les gens qui se plaignent sans arrêt sans rien proposer en échange. On les attend les patchs! Le site web, tout comme GIMP lui-même, est un logiciel Libre. Y a un dépôt public et on a un bugtracker sur lequel on peut proposer des patchs.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Rien n'est évident en algorithmique. C'est la raison pour laquelle les algos naïfs (terme employé pour nommer justement les algorithmes "évidents") sont rarement les bons (ils sont suffisants pour commencer par contre et avoir quelque chose qui "marche" quand avant on avait juste rien, ça oui).
C'est la raison pour laquelle même si j'ai aussi moi-même diverses "croyances", je ne les considère pas comme évidentes et sûrement pas comme justes tant que je ne les ai pas implémentées, testées et comparées (quand il existe une autre implémentation). Encore moins quand je reprends un code sur lequel d'autres ont travaillés et se sont posés peut-être les mêmes questions.
En tous les cas, merci pour le patch. J'ai répondu. Je pense que le patch est sur la bonne voie mais il y a beaucoup de choses à changer plus en profondeur pour qu'il soit valide. Là tu casses l'utilisation des caractères de contrôle dans l'ensemble des codages single-byte. Or même s'ils sont rares et peu utilisés, les caractères de contrôle ne sont pas techniquement une erreur de codage. Ton patch risque de casser la détection de textes parfaitement valides dans n'importe lequel des codages single-byte pris en charge.
Ensuite peut-être que les caractères de contrôle peuvent être des séquences "négatives" (c'est à dire qu'ils feraient baisser la "confiance" en ce charset), bien que je ne sois pas sûr que ce soit utile (voire souhaitable) pour tous les caractères de contrôle en commun à tous les charsets (puisque baisser la confiance en tous les charsets n'apporte probablement rien, voire pourrait poser problème); mais ça peut l'être pour ceux qui sont uniques à quelques charsets. Ensuite encore une fois, ce serait à essayer et tester.
En tous les cas, si tu souhaites approfondir la question et proposer un patch plus complet, il est le bienvenu. :-)
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
là où je te rejoins c'est sur l'ergonomie du site, chez moi en tous cas les pages du nouveau site mettent un temps rédibitoire pour s'afficher, du coup téléphone ou ordi, ça ne le met pas en valeur
Ça a déjà été remarqué et n'a rien à voir avec l'ergonomie du site. En plus c'est un site tout en statique, et les images sont petites, franchement c'est dur de faire plus léger à moins de faire du texte pur (ce qui serait un choix intéressant pour promouvoir un logiciel de traitement et création d'images!). Je pense que faire un nouveau site pour un programme aussi connu que GIMP, ca se fait remarquer et qu'une quantité phénoménale de gens à travers le monde se connecte ces derniers jours, donc les serveurs ont du mal à tenir la charge. Tout simplement…
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
C'est faux, et je l'ai montré dans un commentaire précédent.
En effet. Je me basais sur le papier de recherche et j'ai eu tort. Tu sembles avoir raison sur le fait que l'implémentation n'a pas l'air d'être stricte. J'ai regardé un peu le code et je regarderai plus tard en détail les algos implémentés pour voir s'il y a une raison et si cela vaudra le coup d'essayer de rendre le test strict.
Ce n'est pas dit, et il faut bien se dire que les gens qui ont écrit ça à l'origine ont clairement testé eux-mêmes plusieurs implémentations (même dans le papier de recherche, ils citent déjà plusieurs types de tests et comment ils ont simplifié). Il faut bien voir que la rapidité et l'exhaustivité des langages est importante. Idéalement uchardet devrait être capable de détecter n'importe quel langage/charset et toujours rester rapide (voire très rapide). Si on se rend compte que certaines approximations peuvent accélérer la détection par 10 avec une qualité de détection très proche, clairement l'approximation vaut le coup.
Par exemple dans le papier, ils expliquent que l'approche naïve est de faire des stats par caractère, mais cela prend énormément de ressources CPU et mémoire. Au final, ils séparent juste la distribution en 2 groupes (caractères fréquemment et peu utilisés), ce qui rend le calcul beaucoup plus rapide et moins gourmand en ressource tout en gardant un résultat satisfaisant sur des textes d'une longueur minimale.
C'est certes moins précis, mais entre un résultat instantané et un calcul qui va charger des dizaines de dictionnaires en mémoire, créer un pic CPU, et prendre plusieurs secondes (pour ouvrir juste un bête fichier texte!), le choix est vite fait. Personne ne veut attendre plusieurs secondes à chaque ouverture d'un fichier dans gedit ou pour lancer son lecteur multimédia avec des sous-titres.
Je pense que le vrai problème de tes exemples est que ce sont des mots seuls et courts. uchardet ne sera probablement jamais efficace sur ce type de cas d'usage; et si c'est le tien principalement, alors uchardet n'est en effet pas fait pour toi.
Par contre uchardet sera toujours plus efficace à partir d'une ou deux phrases (plus efficace dans le sens où ce sera instantané tout en prenant en charge énormément plus de langages et charset; dans tous les cas, clairement si tu compares chaque mot avec un dictionnaire, ton algorithme sera toujours plus efficace, mais à quel prix!).
En tous les cas, merci pour le rapport de bug. Je regarderai si ça peut être amélioré avec un coût raisonnable quand je pourrai. :-)
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Par contre, on peut, et je pense qu'il faut, détecter les points de codes qui ne sont pas valides dans un encodage donné. Et ça, uchardet ne le fait visiblement pas.
Uchardet le fait.
Son algo est basé sur un papier de recherche qui combine 3 méthodes:
1/ le codage, c'est à dire la détection de séquences d'octets illégaux. Ce dont vous parlez. Il s'agit en fait de la méthode naïve la plus répandue quand quelqu'un va vouloir réimplémenter une détection de charset (par exemple gtksourceview utilisait grosso modo cet algorithme). Elle marche plutôt bien notamment pour les codages multi-bytes qui ont pas mal de séquences illégales. Par contre elle est très peu utile (voire souvent carrêment inutile) pour différencier les codages single-byte qui ont tous quasi les mêmes tableaux de caractères légaux (en particulier les ISO-8859-X).
Donc si uchardet le fait, bien entendu. Mais c'est loin d'être suffisant pour traiter la plupart des cas (il y a énormément de codages single-byte. En fait tous les langages européens sont codables sur une variante ISO-8859, et cet algo ne permet aucune détection pour un texte qui utilise une de ces variantes).
Notez pour l'anecdote, et c'est assez marrant, que Firefox rend mal la page même qui explique l'algo de leur ancienne méthode de détection (on voit des caractères cassés, typique d'un encodage raté). En fait, Mozilla n'utilise plus cet algo et a remplacé par une détection par langue.
Or un simple test avec uchardet montre que ce dernier détecte correctement le codage comme "WINDOWS-1252" (bon c'était probablement de l'ISO-8859-1, mais Windows-1252 est un superset donc acceptable). Comme quoi, je pense que c'était une erreur de la part de Mozilla d'abandonner cet algo.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Avec un nom comme Gimp, on suppose évidemment qu'à l'origine, les auteurs avaient en tête une suite de logiciels (Prochain sondage : qui laisse le SafeSearch activé sur Google ?).
Je pense que tu voulais dire "gimp suit" (en anglais "vêtement de gimp", sans 'e'). Et tu fais donc référence à Pulp Fiction. Je n'ai aucune idée si les auteurs originels avaient voulu faire une référence ou quoi. Et on nous demande très régulièrement de changer le nom du logiciel (troll récurrent qu'on a probablement tous les 6 mois sur l'une des listes de discussion dev ou user par quelqu'un d'outré par ce nom), et la réponse est invariablement la même: les gens connaissent "GIMP", le logiciel. Tu fais une recherche sur internet avec "gimp", tu ne trouves que des pages référençant le logiciel sur les X premières pages, dans toutes les langues. Tu ne trouves pas de truc sado-maso (et pas besoin de désactiver le safe search ou quoi que ce soit, c'est juste toujours le cas). On a même demandé à quelqu'un du milieu sado-maso si ce film avait vraiment créé une utilisation du mot, et même pas vraiment (c'est donc surtout dans la tête des gens qui se plaignent s'imaginant que gimp est utilisé quotidiennement dans ces milieux).
Les gens qui font le rapprochement et s'en trouvent choqués au point de dire qu'ils ne peuvent utiliser le logiciel avec un tel nom, ben franchement, j'ai envie de dire qu'ils font bien ce qu'ils veulent et qu'ils sont bien les seuls à penser à ça.
Je dis pas que c'est ton cas car je vois bien que tu fais des blagues dans le reste de ton post, mais je voulais juste éclaircir le fait que non, il n'y a aucune référence sado-maso dans le nom du soft. Et c'est pas parce qu'un film a utilisé un mot similaire pour un nom de personnage qu'on voit 5 minutes (nom dont personne ne se souvient même si les gens connaissent le film) dans un film y a 20 ans que ça a le moindre rapport.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Le numéro de version sur le bouton « Download » n'est pas très lisible. J'ai cru au début qu'il s'agissait d'un nombre de téléchargements. Il faudrait que les points qui séparent les chiffres soient plus visibles.
J'ai fait la même remarque à Patrick y a déjà plusieurs semaines. Il n'a en effet toujours pas corrigé. Je lui referai la remarque.
Je n'aime pas trop la manière dont les mots « GNU Image Manipulation Program » ont été placés, avec GNU Image en visibilité accrue.
Je n'avais pas fait gaffe, mais maintenant que tu le dis, je trouve que c'est une bonne remarque. Je ferai passer aussi.
Merci!
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Tu ne donnes que cette chaîne de caractère à manger à uchardet? Ça, c'est sûr, tu lui donnes pas beaucoup de chances. Avec n'importe quel système de détection (même en utilisant un dico), tu peux trouver très facilement des cas d'erreur si ton texte en entrée est trop petit. Il faut au minimum avoir une petite phrase pour que ça commence à avoir du sens de comparer des systèmes de détection.
ISO-8859-1
Il n'y a pas encore de prise en charge de ce charset malheureusement.
Seul умный a un sens dans une langue (cela signifie intelligent en russe).
Ok en effet si ton cas d'usage est de détecter la langue/charset de mots courts, tous seul, alors il me paraît clair qu'un tel système de détection par dictionnaire uniquement sera fiable. Et encore, cela cassera à la moindre faute d'orthographe, en conjuguant ou accordant en genre/nombre, ou simplement si ton mot n'est pas dans le dico, comme un argot récent ou un mot très moderne. Choses qui peuvent être améliorées en ajoutant une prise en charge grammaticale. Bon au final tu implémentes du traitement de la langue! :-)
uchardet va le détecter en se rendant compte que les lettres у, м, н, ы, й sont plus fréquentes en russe que n'importe lesquelles des lettres des autres résultats dans n'importe quel langage.
Pas seulement, il utilise aussi les stats de fréquence de suites de 2 caractères.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Je suis le mainteneur de uchardet depuis peu. C'est effectivement la meilleure alternative à l'heure actuelle pour la détection de charset en Libre. Les "classiques" (enca, libguess…) utilisés jusque là sont ridicules d'inefficacité, sans compter ceux qui essaient de réimplémenter une telle détection avec des algos naïfs (ex: gtksourceview, voire VLC, mais eux ne font pas vraiment de détection basé sur le fichier en fait).
Néanmoins la lib est encore loin d'être parfaite. Mais je vais essayer d'améliorer cela avec le temps.
Et voilà, on en arrive enfin à la raison pour laquelle j'ai écrit ce journal. uchardet utilise une méthode statistiques fondée sur la fréquence des lettres. C'est bien, parce que c'est rapide, et que ce n'est pas gros. Mais l'inconvénient, c'est qu'il lui arrive de se tromper, entre deux codecs proches et deux langues proches, quand le fichier comprend peu de caractères spéciaux.
Même si c'est possible que l'algo se trompe entre des codages proches sur certains textes, je pense que le vrai problème est que les données devraient être mises à jour pour certains codages, et surtout uchardet ne prend pas encore en charge tous les codages (même certains qui sont très courant). Un exemple simple, c'est que uchardet est nul pour le français par exemple si vous avez des vieux textes pas écrit en UTF-* (en français, historiquement on utilisait surtout ISO-8859-15, voire ISO-8859-1, y a encore pas si longtemps de cela. Or uchardet n'a de prise en charge d'aucun de ces deux charsets assez communs).
Mais ça devrait s'améliorer. Dans tous les cas, ça va dans le bon sens. mpv utilise dorénavant uchardet comme mode de détection par défaut (si c'est compilé avec). Ce qui fait que je peux enfin regarder mes films avec des sous-titres japonais ou coréen (ce qui était mon cas d'usage principal qui m'a poussé à regarder et tester ce qui existait, le pousser dans divers logiciels, pour finalement devenir le mainteneur d'uchardet) sans me prendre la tête à savoir si le créateur du fichier l'a fait en UTF-8, en EUC-KR ou quoi que ce soit d'autre…
gtksourceview sont sur le point de merger mes patchs, ce qui veut dire par exemple que gedit pourra enfin ouvrir mes fichiers non-UTF-8 sans que je me prenne la tête à sélectionner le bon charset dans une liste déroulante.
Etc.
Donc j'ai écrit un petit script python, qui se fonde sur l'utilsation d'un dictionnaire pour détecter la langue du fichier.
J'y avais pensé aussi. Par contre, ton approche est trop bourrine pour être facilement extensible. Utiliser un dico complet (en plus tu prends en charge que 3 langues, et ça ralentit déjà), c'est normal que ce soit lent. Par contre toutes les langues ont des mots très courants, et ceux-là, oui clairement c'est une approche très intéressante. En fait c'est une approche très proche de l'algo d'uchardet qui se base sur des stats de suites de deux ou trois lettres, ce que tu appliques à des mots complets. À partir de là se pose aussi la question de ce qu'est un mot.
Je vois que tu tokenizes tes mots avec l'expression régulières "\w". Ça marchera pour tes trois langues choisies (anglais, français, russe), mais par par exemple ça ne marchera pas avec du Japonais ou du Chinois qui ne séparent pas les mots avec des espaces.
Pour cela, il y a des segmenteurs (comme tinysegmenter que je maintiens aussi mais n'ai pas touché depuis longtemps).
En tous les cas, oui, utiliser une liste limitée des mots (pas tous les mots) très utilisés statistiquement dans un langage peut être très intéressant pour compléter d'autres méthodes de détection (uchardet lui-même combine plusieurs méthodes de détection d'ailleurs) et donner une note globale de "confiance" dans un résultat de détection.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Vous avez raison, c'est assez vulnérable.
Le vrai problème est que la plupart des gens veulent quelque chose de peu cher et rapide, voire quasi instantané (tout en parlant sécurité). Donc les CAs font des vérifs de ce genre passant par le DNS (un autre classique est aussi d'envoyer une vérif par email à une des adresses enregistrées pour ce domaine dans le DNS, ce qui est aussi tout à fait vulnérable à une interception).
Le top de la sécurité serait bien entendu que deux personnes (un représentant le domaine, l'autre le CA) se rencontrent en vrai, physiquement, pour s'échanger des informations d'identité puis — si tout semble en ordre — des infos d'identification au service. Mais ça prendrait du temps, et surtout ça coûterait une blinde (le temps humain est ce qui coûte le plus cher!). Cela va à l'encontre du besoin.
Donc des compromis sont faits. De toutes façons peu de gens comprennent vraiment ce qu'ils font avec HTTPS, même ceux qui sont payés pour cela.
Pour minimiser le risque ceci dit, la vérification de présence du fichier est faite sur le serveur en https (c'est à dire https://example.com, et non http://example.com). Voir la page d'explication des technos. Donc tant que le renouvellement se fait avec un certificat encore valide (ce devrait être le cas, puisqu'automatique), cela assure une certaine sécurité. Le risque de MITM n'apparaît donc qu'à la demande initiale. Bien sūr, l'attaquant pourrait alors demander à passer par un canal moins sécurisé (comme un enregistrement DNS), et ce serait donc bien si un possesseur/administrateur de domaine avait la possibilité de bloquer certains canaux de vérification.
Dans tous les cas, oui. Il y a toujours à un moment donné au moins 1 instant (l'échange initial) où la sécurité est faible et sujette à attaque si toutes communications passent par Internet. C'est le coût de tout faire à distance et c'est la raison pour laquelle les geeks sécurité font des "key signing party" pour s'échanger et signer leurs clés personnelles avec rencontre physique et vérification d'identité, afin d'éliminer ce risque de l'échange initial.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Il me semble n'être encore jamais venu à l'Open World Forum ou Solutions Linux (maintenant Open Source Summit), mais de ce que j'en entends dire et de la façon dont ils se présentent eux-même, c'est un évènement clairement orienté professionnel.
Par conséquent, je pense même que venir avec des CVs est bien vu, si tu cherches du boulot dans l'Open Source.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
On devait y être pour présenter le projet de film d'animation ZeMarmot. ;-(
Je viens d'appeler notre contact, et on nous a dit qu'ils allaient faire une réunion des organisateurs ce soir pour voir s'il n'y a pas possibilité de trouver un autre lieu pour faire tout de même une rencontre plus informelle ("à l'arrache"). Donc tout n'est pas perdu, même s'il vaut mieux ne pas se faire trop d'illusion.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
En même temps, ton "mendiant" (Wikipédia), tu es encore une fois allé le voir de toi-même pour lui redemander une autre information, comme il connaît tellement bien tout cela. Sans cela, tu n'aurais pas eu à subir sa "pub". C'est pas comme si t'étais tranquillement assis sur un banc et qu'il est venu te chercher (Wikipédia ne se connecte pas à ton ordi inopinément!). C'est l'inverse.
Ton argument ne vaut rien. Il permet de justifier la publicité agressive, ou toute aute forme d'incivilité sous pretexte de proposer quelque chose de gratuit.
Je ne suis pas à 100% à fond pour leur technique de campagne (ce n'est pas de la pub à propos!), et je la trouve un peu intrusive aussi. Et il y a clairement des choses à faire pour l'améliorer. En même temps, je ne vais pas cracher sur eux. Ça reste une fondation à but non lucrative qui fait des choses que je trouve extraordinaires et a réellement changé notre vision de l'encyclopédie et du partage de connaissance. Je me souviens encore quand j'étais petit, les gens ne juraient que par certaines grosses encyclopédies qui venaient en 50 volumes et coûtaient des fortunes. Puis y a eu des encyclopédies numériques comme Encarta et surtout Universalis (qui si je me souviens bien coûtait des milliers d'euros!).
C'était vraiment la connaissance réservée aux riches. Wikipédia a vraiment fait quelque chose d'assez grandiose dans ce domaine.
Donc tant qu'ils ne reviennent pas sur ces principes de la connaissance pour tous, alors je peux supporter quelques bandeaux une fois par an (et je donnerais si j'avais un salaire. Ce que j'ai déjà fait par le passé).
Donc oui, leur méthode de demande de don pourrait être améliorée. Peut-être qu'ils tâtonnent pour trouver la méthode idéale. Peut-être même qu'ils sont tous les ans proches de l'extinction car ils ont du mal à subvenir aux besoins du service proposé (ils sont quand même dans le top-10 des sites les plus vues au monde, c'est pas un petit serveur dans le placard qu'il faut pour soutenir la charge!) et que comme le problème se répète annuellement, ils se disent qu'ils veulent essayer quelque chose de différent l'an prochain. Donc ils essaient de nouveaux modes de demande de donation, un peu plus visibles en se disant qu'au moins ainsi les gens ignoreront moins.
Ils pourraient aussi engager du personnel marketing experts en techniques de démarchages plus subtiles, car ils connaissent tous les trucs pour soulager la bourse des gens sans même qu'ils s'en rendent compte. En même temps, s'ils utilisaient tout leur argent donné dans ce genre de pratique pour faire plaisir aux donateurs et les rendre confortables sans leur mettre un peu les yeux en face des trous de temps en temps, c'est là où je serais pas content.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
Question de couche: pour moi le protocole doit être indépendant de la manière de le transporter.
Je comprends pas de quoi tu parles et le rapport avec la discussion. XMPP est indépendant de la couche de transport, qui est en effet TCP par défaut, mais peut-être ce que tu veux d'autre. Par exemple, y a du XMPP over BOSH (cad HTTP).
C'est même explicitement décrit dans la RFC 6120:
Informational Note: There is no necessary coupling of XML streams to TCP, and other transports are possible. For example, two entities could connect to each other by means of [HTTP] as specified in [XEP‑0124] and [XEP‑0206]. However, this specification defines only a binding of XMPP to TCP.
Si tu parles de la couche de transport pour les données, ben c'est aussi exactement ce que fait XMPP avec Jingle! Le protocole permet de définir divers transports, avec des connexions directs TCP, UDP, ou ce que tu veux, en passant par des intermédiaires ou en direct, etc. Et avec du transport inline dans XMPP en dernier recours.
Par exemple dans Mumble, les paquets peuvent être transférés sur deux connexions TCP+UDP ou sur une seule connexion TCP:
While the TCP connection is mandatory the UDP connection can be compensated by tunnelling the UDP packets through the TCP connection as described in the protocol description later.
Bon je peux dire une connerie car je connais pas Mumble et j'ai pas le temps ni l'envie de regarder en détail, mais la citation que tu fais… ben c'est exactement ce que fait XMPP et ce que je dis plus haut (bon sauf que XMPP fait bien plus que juste ces deux cas). Là ils semblent dire que la connexion UDP est le comportement par défaut, mais qu'elle peut être remplacée par la connexion TCP existante (j'imagine si l'établissement de la seconde connexion échoue). Ben c'est ce que fait XMPP avec son fallback inline.
Mais au final dans Mumble aussi, ils sont donc probablement conscients que si possible, ils préfèrent utiliser une connexion séparée.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Dommage
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Firefox OS est bronsonisé. Évalué à 10.
Salut,
D'après cet article sur FirefoxOS Central, Firefox OS continuera à être développé, et notamment le cas des TVs est explicitement cité comme ayant de l'avenir. Apparemment ce serait seulement la partie Firefox OS pour téléphone qui est arrêtée (du moins avec support officiel par Mozilla, c'est à dire que des constructeurs pourraient décider d'eux-même de fournir Fx OS sans contracter Mozilla pour le support OS, bien que clairement cela a peu de chance d'arriver, si le dév principal lui-même ne croit plus à son logiciel pour cet usage).
Ensuite je suis pas certain que la news soit très officielle, car ce site, malgré son nom, n'a pas l'air un site Mozilla officiel, mais communautaire (dites moi si je me trompe). En outre, déjà que certains dans les commentaires ici semblent dire que l'évolution de Firefox OS était lente quand c'était clairement une des priorités de la fondation, si en plus le développement ralentit, avec moins de dévs affectés, et que ce n'est plus une cible prioritaire de Mozilla, ça ne paraît pas très bon pour autant pour Firefox OS.
L'avenir nous le dira.
En tous cas, c'est dommage de voir une alternative mourir, bien que je dois avouer ne jamais vraiment avoir cru en le tout-web. Notamment je peux tout à fait comprendre qu'un focus soit mis sur certaines technologies, voire un langage de programmation, mais je n'ai jamais compris pour autant que Mozilla interdise les applications non-web. En particulier, j'aurais bien aimé pouvoir compiler des apps natives (donc C, C++ ou tout langage compilé) pour Firefox OS, ce qui n'aurait pas été un problème (c'est du Linux derrière, rien de bien exotique), mais même d'ailleurs dans d'autres langages de scripts (python ou quoi que ce soit).
Sur Android par exemple, le focus est sur le Java, et tout est fait pour faciliter le dév avec Java, mais il reste possible de compiler un programme développé dans d'autres langages. Là — sauf erreur — Mozilla semblait vouloir interdire l'utilisation de tout autre langage que les technos web. Donc un filtre en imposant des choix technologiques aux développeurs. J'ai toujours considéré cela comme une grosse erreur et aussi assez rédhibitoire pour beaucoup. :-/
Tout ça pour dire, les choix faits n'avaient peut-être pas été les meilleurs pour attirer les dévs.
Mais ça reste dommage car je soutiens Mozilla et les alternatives Libres de manière générale.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: « Jeunes sortis du système »
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Le Libre au service de jeunes sortis du système…. Évalué à 2.
Ah effectivement, j'ai entendu le terme de "raccrocheur scolaire" aussi, ce qui correspond au cas de jeunes qui ont "décroché", et qui essaient maintenant de "raccrocher".
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: « Jeunes sortis du système »
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Le Libre au service de jeunes sortis du système…. Évalué à 8.
En effet, peu nombreux sont-ils.
Il y a bien des gens comme moi qui essaient d'en sortir à ma façon, mais ça a un prix: rarement de domicile stable, pas de salaire stable, peu du confort que beaucoup qui lisent ici estiment même être un truc de base. Mais c'est un choix, et comme je suis pas matérialiste, je me fiche d'avoir du matos. Et même avec tout ça, je suis encore bien dans le système malheureusement. Si tu penses être en dehors de ce système, j'aimerais bien savoir exactement comment tu vis.
Pour ces jeunes, ils aimeraient bien simplement avoir un job avec salaire qui tombe tous les mois, etc. Ce n'est sûrement pas à moi de leur faire la morale sur "le système est mauvais, restez dehors". On leur présente déjà une alternative intéressante avec des logiciels Libres, mais on sait très bien que pour beaucoup (peut-être tous même!) d'entre eux, dès qu'ils trouveront un nouveau stage ou un boulot, si ce n'est pas du tout dans ce milieu, ils risquent d'oublier même la notion d'alternative et de logiciel Libre. Il faut bien manger, comme on dit. C'est pas grave, on sême une petite graine, mais tout jardinier sait que toutes les graines ne donnent pas forcément l'arbuste souhaité (ce qui n'est pas forcément un mal!). Le Libre, c'est pas une secte, on n'est pas là pour endoctriner des gens, ni non plus pour détruire le système à tous prix (même lorsqu'on n'y adhère pas).
Il s'agit en effet peut-être d'une expression politiquement correcte, si tu veux, ou maladroite de ma part. C'est très possible aussi.
Déjà j'aurais dû dire de façon plus complète "sorti du système scolaire" (cf. un autre message), car ils sont quand même (comme nous tous) dans le système. Comme je disais plus haut, y a pas grand monde — sinon personne — qui peut prétendre être hors du système.
Mais t'aurais appelé ça comment? "Jeunes de banlieues"? C'est sûr, c'est moins politiquement correcte, mais c'est surtout malsain (une dichotomie inutile) et faux (on en trouve aussi en plein cœur de Paris des gens un peu perdus dans le système scolaire et professionnel).
Ce sera mon dernier message sur ce fil trollesque.
Par contre j'accepte avec plaisir les termes alternatifs (sans l'enrober d'insultes) pour une prochaine news. C'est plus constructif de proposer. Il est toujours dur de trouver les bons mots sans avoir l'impression d'insulter certaines parties. On peut appeler cela du politiquement correct si on veut, mais en l'occurrence, je ne vois pas où est le mal car dans ce sujet, je ne vois pas l'intérêt d'être insultant envers qui que ce soit.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: « Jeunes sortis du système »
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Le Libre au service de jeunes sortis du système…. Évalué à 4.
En effet, il manque clairement un tel mot. "systeme éducatif" ou "système scolaire". Ces jeunes sont bien dans le système de manière générale.
On peut parler d'insertion professionnelle aussi, il me semble.
Je n'ai pas forcément les bons mots, je ne suis pas un expert du marketing social. :-)
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: le circuit?
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Le Libre au service de jeunes sortis du système…. Évalué à 8.
Le circuit d'Argenteuil n'est pas terminé. C'est donc normal qu'il ne soit pas dispo. On le mettra en ligne, c'est sûr à 100%, une fois le stage des jeunes achevé.
Par contre, je pense que le circuit de Tours (qui a été fait il y a quelques temps, ce fut la première expérience sur ce concept) devrait être dispo quelque part. Mais j'avoue que j'ai pas cherché. Je demanderai demain à un des animateurs du projet de Tours qui vient nous aider sur Paris. Et si c'est pas en ligne, je le pousserai pour mettre le circuit en ligne (car ce serait dommage en effet).
Un truc que je n'ai pas dit, c'est que les jeunes dirigeront aussi quelques ateliers demain sur les diverses étapes du processus. Qui sait? Vous pourriez vous même apprendre de ces jeunes, et ressortirez peut-être de là avec toute la connaissance pour modéliser votre propre quartier et en faire une piste SuperTuxKart?
En fait je me dis que je tenterais bien l'expérience sur Paris (dans le cadre de l'association LILA), pas forcément avec des jeunes en difficulté dans un contexte professionnalisant comme là, mais avec quiconque le souhaite. Enfin pas maintenant, car je ne peux pas créer le temps pour ça. Mais peut-être un jour proche, qui sait.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: exemple
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal toutf8: autodétecter et convertir de n'importe quel encodage de caractères vers UTF8. Évalué à 2. Dernière modification le 27 novembre 2015 à 02:23.
Oui, ben je sais pas. J'utilise le debugger inclus dans Firefox (touche F12) pour voir les headers, dans l'onglet network. Il me donnait que les headers copiés plus haut, mais je me rends compte que si je fais "edit and resend", la nouvelle requête a plus de headers, avec notamment le Content-type. C'est étrange. Je sais pas trop comment ce debugger marche (et si même c'est là le problème).
T'utilises quoi pour voir les headers?
Enfin bon, en effet, en renvoyant une seconde fois la requête donc, j'ai pu voir que le serveur annonce de l'UTF-8.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
# Ça m'arrive tout le temps
Posté par Jehan (site web personnel, Mastodon) . En réponse à l’entrée du suivi Annuler un pertinentage / inutilage. Évalué à 3 (+0/-0).
Sur desktop, pas trop, mais sur mobile, ça m'arrive tout le temps. Soit en cliquant à côté (par exemple quand je veux cliquer sur "Lire la suite" qui est juste au dessus des liens de pertinentage), soit en cliquant quand je voulais scroller, etc.
Et c'est vrai que c'est très énervant, notamment car de base je n'utilise pas le système de pertinentage. Je pertinente/inutile très rarement de moi-même, et donc mon ratio de pertinentage est très vraisemblablement en faveur des erreurs!
Ce serait vraiment bien de pouvoir annuler un "vote" pertinent/inutile.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: exemple
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal toutf8: autodétecter et convertir de n'importe quel encodage de caractères vers UTF8. Évalué à 3. Dernière modification le 25 novembre 2015 à 23:26.
Salut,
Je loupe peut-être quelque chose, mais je vois pas de "Content-type" dans les headers en réponse. Cette page me retourne ça.
Quant à la balise méta dans la page web (j'avais même pas vérifié, tu as raison, j'aurais dû le faire), elle dit:
Donc il semble que Firefox n'ait pas suivi les indications de la page au contraire.
Donc ton commentaire m'étonne car il donne l'impression que tu as vérifié tout cela et trouve, à l'inverse de moi, mention de UTF-8 dans les headers HTTP et dans le html. Est-ce le cas?
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Attirer les nouveaux contributeurs
Posté par Jehan (site web personnel, Mastodon) . En réponse à la dépêche GIMP a 20 ans !. Évalué à 6.
Sur le bugzilla GNOME qui nous héberge, il y a le concept des bugs "GNOME-love" qui sont exactement ce dont tu parles (des bugs probablement
faciles"pas trop compliqués" à corriger qui sont un bon point d'entrée dans un projet).Tu y as accès par exemple avec le lien "GNOME-love bugs" à droite dans la page d'un projet sur le bugtracker: https://bugzilla.gnome.org/page.cgi?id=browse.html&product=GIMP
Le lien direct vers les bugs GNOME-love de GIMP
Ce serait en effet une bonne idée de mettre ce lien sur la page "Get Involved". En fait, comme de nombreuses autres pages, il faudrait clairement revoir le contenu de cette page, bien trop touffu. À l'heure actuelle, c'est simplement une reprise du contenu existant sur l'ancien site.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Merci, Gimp!
Posté par Jehan (site web personnel, Mastodon) . En réponse à la dépêche GIMP a 20 ans !. Évalué à 10. Dernière modification le 25 novembre 2015 à 01:07.
Sérieux? Je viens de regarder le site de ce logiciel, et dès la description du logiciel (emphases de moi):
Ils n'utilisent pas le mot "puissant"? Ah si, c'est le 6ème mot ("powerful") de la description! Je compte ce mot 9 fois sur la page principale (quasi à chaque description de fonctionnalité en fait).
C'est pas vague aussi "taking full advantage of the latest OS X features and technologies"?
L'ensemble de la page est du même acabit.
Note que je dis pas que c'est pas similaire sur la page de GIMP, mais je fais juste remarquer à quel point cette comparaison est vide de sens car le site de cet autre logiciel fait exactement ce que le gars dit qu'il ne fait pas.
Aussi je comprendrai jamais les gens qui se plaignent sans arrêt sans rien proposer en échange. On les attend les patchs! Le site web, tout comme GIMP lui-même, est un logiciel Libre. Y a un dépôt public et on a un bugtracker sur lequel on peut proposer des patchs.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: exemple
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal toutf8: autodétecter et convertir de n'importe quel encodage de caractères vers UTF8. Évalué à 4. Dernière modification le 24 novembre 2015 à 23:49.
Rien n'est évident en algorithmique. C'est la raison pour laquelle les algos naïfs (terme employé pour nommer justement les algorithmes "évidents") sont rarement les bons (ils sont suffisants pour commencer par contre et avoir quelque chose qui "marche" quand avant on avait juste rien, ça oui).
C'est la raison pour laquelle même si j'ai aussi moi-même diverses "croyances", je ne les considère pas comme évidentes et sûrement pas comme justes tant que je ne les ai pas implémentées, testées et comparées (quand il existe une autre implémentation). Encore moins quand je reprends un code sur lequel d'autres ont travaillés et se sont posés peut-être les mêmes questions.
En tous les cas, merci pour le patch. J'ai répondu. Je pense que le patch est sur la bonne voie mais il y a beaucoup de choses à changer plus en profondeur pour qu'il soit valide. Là tu casses l'utilisation des caractères de contrôle dans l'ensemble des codages single-byte. Or même s'ils sont rares et peu utilisés, les caractères de contrôle ne sont pas techniquement une erreur de codage. Ton patch risque de casser la détection de textes parfaitement valides dans n'importe lequel des codages single-byte pris en charge.
Ensuite peut-être que les caractères de contrôle peuvent être des séquences "négatives" (c'est à dire qu'ils feraient baisser la "confiance" en ce charset), bien que je ne sois pas sûr que ce soit utile (voire souhaitable) pour tous les caractères de contrôle en commun à tous les charsets (puisque baisser la confiance en tous les charsets n'apporte probablement rien, voire pourrait poser problème); mais ça peut l'être pour ceux qui sont uniques à quelques charsets. Ensuite encore une fois, ce serait à essayer et tester.
En tous les cas, si tu souhaites approfondir la question et proposer un patch plus complet, il est le bienvenu. :-)
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Merci, Gimp!
Posté par Jehan (site web personnel, Mastodon) . En réponse à la dépêche GIMP a 20 ans !. Évalué à 7.
Ça a déjà été remarqué et n'a rien à voir avec l'ergonomie du site. En plus c'est un site tout en statique, et les images sont petites, franchement c'est dur de faire plus léger à moins de faire du texte pur (ce qui serait un choix intéressant pour promouvoir un logiciel de traitement et création d'images!). Je pense que faire un nouveau site pour un programme aussi connu que GIMP, ca se fait remarquer et qu'une quantité phénoménale de gens à travers le monde se connecte ces derniers jours, donc les serveurs ont du mal à tenir la charge. Tout simplement…
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: exemple
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal toutf8: autodétecter et convertir de n'importe quel encodage de caractères vers UTF8. Évalué à 5.
En effet. Je me basais sur le papier de recherche et j'ai eu tort. Tu sembles avoir raison sur le fait que l'implémentation n'a pas l'air d'être stricte. J'ai regardé un peu le code et je regarderai plus tard en détail les algos implémentés pour voir s'il y a une raison et si cela vaudra le coup d'essayer de rendre le test strict.
Ce n'est pas dit, et il faut bien se dire que les gens qui ont écrit ça à l'origine ont clairement testé eux-mêmes plusieurs implémentations (même dans le papier de recherche, ils citent déjà plusieurs types de tests et comment ils ont simplifié). Il faut bien voir que la rapidité et l'exhaustivité des langages est importante. Idéalement uchardet devrait être capable de détecter n'importe quel langage/charset et toujours rester rapide (voire très rapide). Si on se rend compte que certaines approximations peuvent accélérer la détection par 10 avec une qualité de détection très proche, clairement l'approximation vaut le coup.
Par exemple dans le papier, ils expliquent que l'approche naïve est de faire des stats par caractère, mais cela prend énormément de ressources CPU et mémoire. Au final, ils séparent juste la distribution en 2 groupes (caractères fréquemment et peu utilisés), ce qui rend le calcul beaucoup plus rapide et moins gourmand en ressource tout en gardant un résultat satisfaisant sur des textes d'une longueur minimale.
C'est certes moins précis, mais entre un résultat instantané et un calcul qui va charger des dizaines de dictionnaires en mémoire, créer un pic CPU, et prendre plusieurs secondes (pour ouvrir juste un bête fichier texte!), le choix est vite fait. Personne ne veut attendre plusieurs secondes à chaque ouverture d'un fichier dans gedit ou pour lancer son lecteur multimédia avec des sous-titres.
Je pense que le vrai problème de tes exemples est que ce sont des mots seuls et courts. uchardet ne sera probablement jamais efficace sur ce type de cas d'usage; et si c'est le tien principalement, alors uchardet n'est en effet pas fait pour toi.
Par contre uchardet sera toujours plus efficace à partir d'une ou deux phrases (plus efficace dans le sens où ce sera instantané tout en prenant en charge énormément plus de langages et charset; dans tous les cas, clairement si tu compares chaque mot avec un dictionnaire, ton algorithme sera toujours plus efficace, mais à quel prix!).
En tous les cas, merci pour le rapport de bug. Je regarderai si ça peut être amélioré avec un coût raisonnable quand je pourrai. :-)
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: exemple
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal toutf8: autodétecter et convertir de n'importe quel encodage de caractères vers UTF8. Évalué à 5. Dernière modification le 24 novembre 2015 à 15:54.
Uchardet le fait.
Son algo est basé sur un papier de recherche qui combine 3 méthodes:
1/ le codage, c'est à dire la détection de séquences d'octets illégaux. Ce dont vous parlez. Il s'agit en fait de la méthode naïve la plus répandue quand quelqu'un va vouloir réimplémenter une détection de charset (par exemple gtksourceview utilisait grosso modo cet algorithme). Elle marche plutôt bien notamment pour les codages multi-bytes qui ont pas mal de séquences illégales. Par contre elle est très peu utile (voire souvent carrêment inutile) pour différencier les codages single-byte qui ont tous quasi les mêmes tableaux de caractères légaux (en particulier les ISO-8859-X).
Donc si uchardet le fait, bien entendu. Mais c'est loin d'être suffisant pour traiter la plupart des cas (il y a énormément de codages single-byte. En fait tous les langages européens sont codables sur une variante ISO-8859, et cet algo ne permet aucune détection pour un texte qui utilise une de ces variantes).
2/ La distribution de caractère.
3/ La distribution de suites de 2 caractères.
Voir le papier ici: http://www-archive.mozilla.org/projects/intl/UniversalCharsetDetection.html
Notez pour l'anecdote, et c'est assez marrant, que Firefox rend mal la page même qui explique l'algo de leur ancienne méthode de détection (on voit des caractères cassés, typique d'un encodage raté). En fait, Mozilla n'utilise plus cet algo et a remplacé par une détection par langue.
Or un simple test avec uchardet montre que ce dernier détecte correctement le codage comme "WINDOWS-1252" (bon c'était probablement de l'ISO-8859-1, mais Windows-1252 est un superset donc acceptable). Comme quoi, je pense que c'était une erreur de la part de Mozilla d'abandonner cet algo.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Linux et au dela
Posté par Jehan (site web personnel, Mastodon) . En réponse à la dépêche GIMP a 20 ans !. Évalué à 10.
Je pense que tu voulais dire "gimp suit" (en anglais "vêtement de gimp", sans 'e'). Et tu fais donc référence à Pulp Fiction. Je n'ai aucune idée si les auteurs originels avaient voulu faire une référence ou quoi. Et on nous demande très régulièrement de changer le nom du logiciel (troll récurrent qu'on a probablement tous les 6 mois sur l'une des listes de discussion dev ou user par quelqu'un d'outré par ce nom), et la réponse est invariablement la même: les gens connaissent "GIMP", le logiciel. Tu fais une recherche sur internet avec "gimp", tu ne trouves que des pages référençant le logiciel sur les X premières pages, dans toutes les langues. Tu ne trouves pas de truc sado-maso (et pas besoin de désactiver le safe search ou quoi que ce soit, c'est juste toujours le cas). On a même demandé à quelqu'un du milieu sado-maso si ce film avait vraiment créé une utilisation du mot, et même pas vraiment (c'est donc surtout dans la tête des gens qui se plaignent s'imaginant que gimp est utilisé quotidiennement dans ces milieux).
Les gens qui font le rapprochement et s'en trouvent choqués au point de dire qu'ils ne peuvent utiliser le logiciel avec un tel nom, ben franchement, j'ai envie de dire qu'ils font bien ce qu'ils veulent et qu'ils sont bien les seuls à penser à ça.
Je dis pas que c'est ton cas car je vois bien que tu fais des blagues dans le reste de ton post, mais je voulais juste éclaircir le fait que non, il n'y a aucune référence sado-maso dans le nom du soft. Et c'est pas parce qu'un film a utilisé un mot similaire pour un nom de personnage qu'on voit 5 minutes (nom dont personne ne se souvient même si les gens connaissent le film) dans un film y a 20 ans que ça a le moindre rapport.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Réaction à chaud
Posté par Jehan (site web personnel, Mastodon) . En réponse à la dépêche GIMP a 20 ans !. Évalué à 5.
Salut,
J'ai fait la même remarque à Patrick y a déjà plusieurs semaines. Il n'a en effet toujours pas corrigé. Je lui referai la remarque.
Je n'avais pas fait gaffe, mais maintenant que tu le dis, je trouve que c'est une bonne remarque. Je ferai passer aussi.
Merci!
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: précision
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal toutf8: autodétecter et convertir de n'importe quel encodage de caractères vers UTF8. Évalué à 7.
Tu ne donnes que cette chaîne de caractère à manger à uchardet? Ça, c'est sûr, tu lui donnes pas beaucoup de chances. Avec n'importe quel système de détection (même en utilisant un dico), tu peux trouver très facilement des cas d'erreur si ton texte en entrée est trop petit. Il faut au minimum avoir une petite phrase pour que ça commence à avoir du sens de comparer des systèmes de détection.
Il n'y a pas encore de prise en charge de ce charset malheureusement.
Ok en effet si ton cas d'usage est de détecter la langue/charset de mots courts, tous seul, alors il me paraît clair qu'un tel système de détection par dictionnaire uniquement sera fiable. Et encore, cela cassera à la moindre faute d'orthographe, en conjuguant ou accordant en genre/nombre, ou simplement si ton mot n'est pas dans le dico, comme un argot récent ou un mot très moderne. Choses qui peuvent être améliorées en ajoutant une prise en charge grammaticale. Bon au final tu implémentes du traitement de la langue! :-)
Pas seulement, il utilise aussi les stats de fréquence de suites de 2 caractères.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
# Au sujet d'uchardet
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal toutf8: autodétecter et convertir de n'importe quel encodage de caractères vers UTF8. Évalué à 10.
Salut,
Je suis le mainteneur de uchardet depuis peu. C'est effectivement la meilleure alternative à l'heure actuelle pour la détection de charset en Libre. Les "classiques" (enca, libguess…) utilisés jusque là sont ridicules d'inefficacité, sans compter ceux qui essaient de réimplémenter une telle détection avec des algos naïfs (ex: gtksourceview, voire VLC, mais eux ne font pas vraiment de détection basé sur le fichier en fait).
Néanmoins la lib est encore loin d'être parfaite. Mais je vais essayer d'améliorer cela avec le temps.
Même si c'est possible que l'algo se trompe entre des codages proches sur certains textes, je pense que le vrai problème est que les données devraient être mises à jour pour certains codages, et surtout uchardet ne prend pas encore en charge tous les codages (même certains qui sont très courant). Un exemple simple, c'est que uchardet est nul pour le français par exemple si vous avez des vieux textes pas écrit en UTF-* (en français, historiquement on utilisait surtout ISO-8859-15, voire ISO-8859-1, y a encore pas si longtemps de cela. Or uchardet n'a de prise en charge d'aucun de ces deux charsets assez communs).
Mais ça devrait s'améliorer. Dans tous les cas, ça va dans le bon sens. mpv utilise dorénavant uchardet comme mode de détection par défaut (si c'est compilé avec). Ce qui fait que je peux enfin regarder mes films avec des sous-titres japonais ou coréen (ce qui était mon cas d'usage principal qui m'a poussé à regarder et tester ce qui existait, le pousser dans divers logiciels, pour finalement devenir le mainteneur d'uchardet) sans me prendre la tête à savoir si le créateur du fichier l'a fait en UTF-8, en EUC-KR ou quoi que ce soit d'autre…
gtksourceview sont sur le point de merger mes patchs, ce qui veut dire par exemple que gedit pourra enfin ouvrir mes fichiers non-UTF-8 sans que je me prenne la tête à sélectionner le bon charset dans une liste déroulante.
Etc.
J'y avais pensé aussi. Par contre, ton approche est trop bourrine pour être facilement extensible. Utiliser un dico complet (en plus tu prends en charge que 3 langues, et ça ralentit déjà), c'est normal que ce soit lent. Par contre toutes les langues ont des mots très courants, et ceux-là, oui clairement c'est une approche très intéressante. En fait c'est une approche très proche de l'algo d'uchardet qui se base sur des stats de suites de deux ou trois lettres, ce que tu appliques à des mots complets. À partir de là se pose aussi la question de ce qu'est un mot.
Je vois que tu tokenizes tes mots avec l'expression régulières "\w". Ça marchera pour tes trois langues choisies (anglais, français, russe), mais par par exemple ça ne marchera pas avec du Japonais ou du Chinois qui ne séparent pas les mots avec des espaces.
Pour cela, il y a des segmenteurs (comme tinysegmenter que je maintiens aussi mais n'ai pas touché depuis longtemps).
En tous les cas, oui, utiliser une liste limitée des mots (pas tous les mots) très utilisés statistiquement dans un langage peut être très intéressant pour compléter d'autres méthodes de détection (uchardet lui-même combine plusieurs méthodes de détection d'ailleurs) et donner une note globale de "confiance" dans un résultat de détection.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Automatisme ?!?
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Let’s Encrypt en bêta : petit retour d’expérience. Évalué à 2.
Vous avez raison, c'est assez vulnérable.
Le vrai problème est que la plupart des gens veulent quelque chose de peu cher et rapide, voire quasi instantané (tout en parlant sécurité). Donc les CAs font des vérifs de ce genre passant par le DNS (un autre classique est aussi d'envoyer une vérif par email à une des adresses enregistrées pour ce domaine dans le DNS, ce qui est aussi tout à fait vulnérable à une interception).
Le top de la sécurité serait bien entendu que deux personnes (un représentant le domaine, l'autre le CA) se rencontrent en vrai, physiquement, pour s'échanger des informations d'identité puis — si tout semble en ordre — des infos d'identification au service. Mais ça prendrait du temps, et surtout ça coûterait une blinde (le temps humain est ce qui coûte le plus cher!). Cela va à l'encontre du besoin.
Donc des compromis sont faits. De toutes façons peu de gens comprennent vraiment ce qu'ils font avec HTTPS, même ceux qui sont payés pour cela.
Pour minimiser le risque ceci dit, la vérification de présence du fichier est faite sur le serveur en https (c'est à dire https://example.com, et non http://example.com). Voir la page d'explication des technos. Donc tant que le renouvellement se fait avec un certificat encore valide (ce devrait être le cas, puisqu'automatique), cela assure une certaine sécurité. Le risque de MITM n'apparaît donc qu'à la demande initiale. Bien sūr, l'attaquant pourrait alors demander à passer par un canal moins sécurisé (comme un enregistrement DNS), et ce serait donc bien si un possesseur/administrateur de domaine avait la possibilité de bloquer certains canaux de vérification.
Dans tous les cas, oui. Il y a toujours à un moment donné au moins 1 instant (l'échange initial) où la sécurité est faible et sujette à attaque si toutes communications passent par Internet. C'est le coût de tout faire à distance et c'est la raison pour laquelle les geeks sécurité font des "key signing party" pour s'échanger et signer leurs clés personnelles avec rencontre physique et vérification d'identité, afin d'éliminer ce risque de l'échange initial.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Est-ce ouvert au visiteur ?
Posté par Jehan (site web personnel, Mastodon) . En réponse à la dépêche Le Paris Open Source Summit arrive et LinuxFr.org sera là ! #OSSParis15. Évalué à 2.
Il me semble n'être encore jamais venu à l'Open World Forum ou Solutions Linux (maintenant Open Source Summit), mais de ce que j'en entends dire et de la façon dont ils se présentent eux-même, c'est un évènement clairement orienté professionnel.
Par conséquent, je pense même que venir avec des CVs est bien vu, si tu cherches du boulot dans l'Open Source.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Caramba ! Encore râté !
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Le Capitole du Libre 2015 n'est plus, vive le Bazar du libre !. Évalué à 5.
On devait y être pour présenter le projet de film d'animation ZeMarmot. ;-(
Je viens d'appeler notre contact, et on nous a dit qu'ils allaient faire une réunion des organisateurs ce soir pour voir s'il n'y a pas possibilité de trouver un autre lieu pour faire tout de même une rencontre plus informelle ("à l'arrache"). Donc tout n'est pas perdu, même s'il vaut mieux ne pas se faire trop d'illusion.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Wikipedia ....
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Quadrature Du Net !. Évalué à 6. Dernière modification le 11 novembre 2015 à 15:55.
En même temps, ton "mendiant" (Wikipédia), tu es encore une fois allé le voir de toi-même pour lui redemander une autre information, comme il connaît tellement bien tout cela. Sans cela, tu n'aurais pas eu à subir sa "pub". C'est pas comme si t'étais tranquillement assis sur un banc et qu'il est venu te chercher (Wikipédia ne se connecte pas à ton ordi inopinément!). C'est l'inverse.
Je ne suis pas à 100% à fond pour leur technique de campagne (ce n'est pas de la pub à propos!), et je la trouve un peu intrusive aussi. Et il y a clairement des choses à faire pour l'améliorer. En même temps, je ne vais pas cracher sur eux. Ça reste une fondation à but non lucrative qui fait des choses que je trouve extraordinaires et a réellement changé notre vision de l'encyclopédie et du partage de connaissance. Je me souviens encore quand j'étais petit, les gens ne juraient que par certaines grosses encyclopédies qui venaient en 50 volumes et coûtaient des fortunes. Puis y a eu des encyclopédies numériques comme Encarta et surtout Universalis (qui si je me souviens bien coûtait des milliers d'euros!).
C'était vraiment la connaissance réservée aux riches. Wikipédia a vraiment fait quelque chose d'assez grandiose dans ce domaine.
Donc tant qu'ils ne reviennent pas sur ces principes de la connaissance pour tous, alors je peux supporter quelques bandeaux une fois par an (et je donnerais si j'avais un salaire. Ce que j'ai déjà fait par le passé).
Donc oui, leur méthode de demande de don pourrait être améliorée. Peut-être qu'ils tâtonnent pour trouver la méthode idéale. Peut-être même qu'ils sont tous les ans proches de l'extinction car ils ont du mal à subvenir aux besoins du service proposé (ils sont quand même dans le top-10 des sites les plus vues au monde, c'est pas un petit serveur dans le placard qu'il faut pour soutenir la charge!) et que comme le problème se répète annuellement, ils se disent qu'ils veulent essayer quelque chose de différent l'an prochain. Donc ils essaient de nouveaux modes de demande de donation, un peu plus visibles en se disant qu'au moins ainsi les gens ignoreront moins.
Ils pourraient aussi engager du personnel marketing experts en techniques de démarchages plus subtiles, car ils connaissent tous les trucs pour soulager la bourse des gens sans même qu'ils s'en rendent compte. En même temps, s'ils utilisaient tout leur argent donné dans ce genre de pratique pour faire plaisir aux donateurs et les rendre confortables sans leur mettre un peu les yeux en face des trous de temps en temps, c'est là où je serais pas content.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Wikipedia ....
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Quadrature Du Net !. Évalué à 6.
Ce mendiant t'a-t-il donné des informations à chaque fois que tu en avais besoin et que tu allais lui demander toute l'année et gratuitement?
Je pense que c'est là la grosse différence. :)
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Bibinaire
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Parlons XMPP - épisode 9 - copie de fichiers et Jingle. Évalué à 2.
Ah ça c'est fort probable. :-)
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Bibinaire
Posté par Jehan (site web personnel, Mastodon) . En réponse au journal Parlons XMPP - épisode 9 - copie de fichiers et Jingle. Évalué à 4. Dernière modification le 05 novembre 2015 à 18:03.
Je comprends pas de quoi tu parles et le rapport avec la discussion. XMPP est indépendant de la couche de transport, qui est en effet TCP par défaut, mais peut-être ce que tu veux d'autre. Par exemple, y a du XMPP over BOSH (cad HTTP).
C'est même explicitement décrit dans la RFC 6120:
Si tu parles de la couche de transport pour les données, ben c'est aussi exactement ce que fait XMPP avec Jingle! Le protocole permet de définir divers transports, avec des connexions directs TCP, UDP, ou ce que tu veux, en passant par des intermédiaires ou en direct, etc. Et avec du transport inline dans XMPP en dernier recours.
Bon je peux dire une connerie car je connais pas Mumble et j'ai pas le temps ni l'envie de regarder en détail, mais la citation que tu fais… ben c'est exactement ce que fait XMPP et ce que je dis plus haut (bon sauf que XMPP fait bien plus que juste ces deux cas). Là ils semblent dire que la connexion UDP est le comportement par défaut, mais qu'elle peut être remplacée par la connexion TCP existante (j'imagine si l'établissement de la seconde connexion échoue). Ben c'est ce que fait XMPP avec son fallback inline.
Mais au final dans Mumble aussi, ils sont donc probablement conscients que si possible, ils préfèrent utiliser une connexion séparée.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]