Journal Analyse de texte

Mon but est d’analyser la fréquence de syllabes ou de mots depuis différents textes. Les fréquences d’apparition de chaque mot/syllabe étant cumulées dans une base de données.
À chaque fois que j’ai posté du code ici je n’ai reçu que des critiques constructives alors je vous soumets celui-là :)
Le code fait ce que je lui demande mais il est très lent sur de gros textes. Je pense que le problème se situe dans mes interactions avec la base de (…)
Journal Galaxie Wikidata : le hub est en extension

On a régulièrement parlé ici de Wikidata (pour ceux qui ne seraient pas convaincus, consultez le tag idoine. C'est un projet bas niveau, qui ne prend sens que si les données que la bases stocke sont utilisées.
Ça fournit une explication au titre de mon journal à dessin obscur a dessin, dans l'immense espace à explorer qu'est le cyberespace, il existe des connexions infinies et des étoiles à explorer. Des nouveaux outils et des routes galactiques viennent en permanence (…)
Journal Un entretien avec le conseiller scientifique de TBBT
/. nous gratifie d'un entretien avec le conseiller scientifique de The Big Bang Theory, une série américaine que vous connaissez sans doute ;-)
C'est en anglais, j'imagine que certains pourront proposer des traducteurs en ligne un peu plus efficaces que google trad, ou même que http://apertium.org (qui obligerait sans doute à passer par l'espagnol ou l’espéranto pour faire la traduction anglais => français).
On y apprend que ce conseiller s'est efforcé de ne pas laisser passer d'erreurs scientifiques, en (…)
Journal De la prédiction de l'auteur d'un journal sur linuxfr

Voici un journal relatant une petite expérience que j'ai faite, c'est peut-être un peu HS, mais je trouve ça cool donc je m'y risque :)
Je me suis récemment demandé si il était possible, à partir d'une base de données de messages, de deviner l'auteur d'un message donné.
J'ai donc codé un script qui, à partir de l'analyse statistique de nombreux journaux sur linuxfr, devrait déterminer l'auteur d'un journal inconnu.
Le principe est simple : On regroupe les journaux de (…)
Journal La stéganographie et le traitement automatique des langues
La stéganographie et le traitement automatique des langues
Bon-jour-nal,
Alors, ceci n'a pas vraiment de rapport avec le logiciel libre, mais je me dis que ça intéressera sûrement les gens du coin. J'avais envie de partager mes petites connaissances accumulées ces derniers jours sur le sujet. Au pire, je me ferai moinsser et je ne le referai plus :)
Déjà, qu'est-ce que la stéganographie ? Sa problématique est de transmettre un message de manière à ce que seul le destinataire (…)
Journal Zino, RMS
Journal Watson, Jeopardy et le test de Turing

Le seul truc un peu original c'est qu'en fait l'interrogateur donne la réponse et que c'est au candidat de reconstituer la question.
Exemple: Si l'interrogateur vous dit "LinuxFR" vous devez répondre "Quel est le site francophone qui rassemble le plus de trolleurs"....ou un truc de ce style.
C'est (…)
Journal Chat80

Ce logiciel a été écrit en Prolog entre 1978 et 1982 par Francisco Pereira et David H. Warren. Prolog en était alors à ses balbutiements, et encore assez peu considéré sérieusement par la communauté scientifique d'alors.
Chat80 possédait à l'époque une petite base de données prolog de géographie. On y trouvait quelques informations sur les pays frontaliers les un aux autres, leur (…)
Journal Bientôt des journaux LinuxFr générées automatiquement ?

Merci d'aller le lire avant de continuer ce journal.
Le résumé bête façon machine:
Le titre est "L'ère des robots-journalistes" et l'article évoque les travaux du laboratoire d'Intelligence Artificielle de l'université du Northwestern près de Chicago.
Tout d'abord le projet "Stats Monkey" : En gros c'est un robot qui parcours les sites web de base ball pour collecter les données et les statistiques sur un match et qui, (…)
Apertium intègre le premier traducteur automatique breton-français
Apertium était initialement destiné à traduire entre des langues suffisamment voisines, mais a réussi aujourd'hui à créer des paires linguistiques plus éloignées. Il a bénéficié du soutien financier du gouvernement espagnol et du gouvernement autonome de Catalogne, ainsi que de la contribution de plusieurs entreprises et universités européennes.
Apertium français-espagnol 0.8.0 vient de sortir
- OpenLogos, projet peu actif ;
- Moses, qui réalise des traductions automatiques basées sur des statistiques ;
- Apertium, projet en GPL reposant sur une communauté active.
Apertium est une plateforme de traduction automatique libre et d'outils linguistiques conçue initialement pour des langues proches, comme par exemple la paire catalan - espagnol. La version 0.8.0 de la paire français-espagnol est sortie le 21 février 2008. Cette paire a bénéficié du soutien de l'entreprise Eleka Ingeniaritza Linguistikoa et a été développée par Prompsit.