Journal Analyse de texte

Posté par . Licence CC by-sa
Tags :
13
15
déc.
2015

Mon but est d’analyser la fréquence de syllabes ou de mots depuis différents textes. Les fréquences d’apparition de chaque mot/syllabe étant cumulées dans une base de données.

À chaque fois que j’ai posté du code ici je n’ai reçu que des critiques constructives alors je vous soumets celui-là :)

Le code fait ce que je lui demande mais il est très lent sur de gros textes. Je pense que le problème se situe dans mes interactions avec la base de (...)

Journal Galaxie Wikidata : le hub est en extension

11
25
jan.
2015

On a régulièrement parlé ici de Wikidata (pour ceux qui ne seraient pas convaincus, consultez le tag idoine. C'est un projet bas niveau, qui ne prend sens que si les données que la bases stocke sont utilisées.

Ça fournit une explication au titre de mon journal à dessin obscur a dessin, dans l'immense espace à explorer qu'est le cyberespace, il existe des connexions infinies et des étoiles à explorer. Des nouveaux outils et des routes galactiques viennent en permanence (...)

Journal Un entretien avec le conseiller scientifique de TBBT

19
19
sept.
2014

/. nous gratifie d'un entretien avec le conseiller scientifique de The Big Bang Theory, une série américaine que vous connaissez sans doute ;-)

http://entertainment.slashdot.org/story/14/09/17/0116249/interviews-david-saltzberg-answers-your-questions-about-the-big-bang-theory

C'est en anglais, j'imagine que certains pourront proposer des traducteurs en ligne un peu plus efficaces que google trad, ou même que http://apertium.org (qui obligerait sans doute à passer par l'espagnol ou l’espéranto pour faire la traduction anglais => français).

On y apprend que ce conseiller s'est efforcé de ne pas laisser passer d'erreurs scientifiques, en (...)

Journal De la prédiction de l'auteur d'un journal sur linuxfr

60
12
avr.
2012

Voici un journal relatant une petite expérience que j'ai faite, c'est peut-être un peu HS, mais je trouve ça cool donc je m'y risque :)

Je me suis récemment demandé si il était possible, à partir d'une base de données de messages, de deviner l'auteur d'un message donné.
J'ai donc codé un script qui, à partir de l'analyse statistique de nombreux journaux sur linuxfr, devrait déterminer l'auteur d'un journal inconnu.

Le principe est simple : On regroupe les journaux de (...)

Journal La stéganographie et le traitement automatique des langues

Posté par (page perso) . Licence CC by-sa
18
20
mar.
2011

La stéganographie et le traitement automatique des langues

Bon-jour-nal,

Alors, ceci n'a pas vraiment de rapport avec le logiciel libre, mais je me dis que ça intéressera sûrement les gens du coin. J'avais envie de partager mes petites connaissances accumulées ces derniers jours sur le sujet. Au pire, je me ferai moinsser et je ne le referai plus :)

Déjà, qu'est-ce que la stéganographie ? Sa problématique est de transmettre un message de manière à ce que seul le destinataire (...)

Journal Watson, Jeopardy et le test de Turing

Posté par (page perso) .
35
17
jan.
2011
Vous connaissez tous le jeu Jeopardy qui passe sur les télévisions de plusieurs pays. En gros les candidats gagnent de l'argent en répondant à des questions. Mouaif pas très nouveau tout ça.
Le seul truc un peu original c'est qu'en fait l'interrogateur donne la réponse et que c'est au candidat de reconstituer la question.
Exemple: Si l'interrogateur vous dit "LinuxFR" vous devez répondre "Quel est le site francophone qui rassemble le plus de trolleurs"....ou un truc de ce style.

C'est (...)

Journal Chat80

Posté par (page perso) .
31
24
juin
2010
Chat80 est bien connu dans le monde de l'intelligence artificielle et le traitement automatique du langage naturel (TALN).
Ce logiciel a été écrit en Prolog entre 1978 et 1982 par Francisco Pereira et David H. Warren. Prolog en était alors à ses balbutiements, et encore assez peu considéré sérieusement par la communauté scientifique d'alors.

Chat80 possédait à l'époque une petite base de données prolog de géographie. On y trouvait quelques informations sur les pays frontaliers les un aux autres, leur (...)

Journal Bientôt des journaux LinuxFr générées automatiquement ?

Posté par (page perso) .
33
9
mar.
2010
Un article intéressant sur le site du Monde aujourd'hui : http://www.lemonde.fr/web/imprimer_element/0,40-0@2-3236,50-(...)
Merci d'aller le lire avant de continuer ce journal.

Le résumé bête façon machine:
Le titre est "L'ère des robots-journalistes" et l'article évoque les travaux du laboratoire d'Intelligence Artificielle de l'université du Northwestern près de Chicago.
Tout d'abord le projet "Stats Monkey" : En gros c'est un robot qui parcours les sites web de base ball pour collecter les données et les statistiques sur un match et qui, (...)

Apertium intègre le premier traducteur automatique breton-français

Posté par . Modéré par patrick_g.
9
22
mai
2009
Communauté
L'Office de la Langue Bretonne a présenté le lundi 18 Mai 2009 le premier traducteur automatique breton-français, développé conjointement avec l'université espagnole d'Alicante, dans le cadre du système de traduction libre Apertium (sous licence GPL).

Apertium était initialement destiné à traduire entre des langues suffisamment voisines, mais a réussi aujourd'hui à créer des paires linguistiques plus éloignées. Il a bénéficié du soutien financier du gouvernement espagnol et du gouvernement autonome de Catalogne, ainsi que de la contribution de plusieurs entreprises et universités européennes.

Apertium français-espagnol 0.8.0 vient de sortir

Posté par (page perso) . Modéré par Nÿco.
0
7
mar.
2008
Bureautique
Le monde du logiciel libre ne compte que très peu de solutions de traduction automatique :
  • OpenLogos, projet peu actif ;
  • Moses, qui réalise des traductions automatiques basées sur des statistiques ;
  • Apertium, projet en GPL reposant sur une communauté active.

Apertium est une plateforme de traduction automatique libre et d'outils linguistiques conçue initialement pour des langues proches, comme par exemple la paire catalan - espagnol. La version 0.8.0 de la paire français-espagnol est sortie le 21 février 2008. Cette paire a bénéficié du soutien de l'entreprise Eleka Ingeniaritza Linguistikoa et a été développée par Prompsit.