LinuxFr.org : les contenus étiquetés avec « taln »

Des nouvelles d'Abstract Wikipédia

2025-10-30T12:46:06+01:00

Bonjour, nal, et les autres.

Ça fait longtemps que j'ai pas pris ma plume pour te donner des nouvelles du projet "Abstract Wikipedia", nom de code d'un projet qui se cherche actuellement un nom définitif

Pour rappel donc c'est un projet au long court qui vise à terme à produire des articles dans tout pleins de langues à partir d'articles écris sur un wiki dans une "langue abstraite" commune à tous. C'est d'intérêt en particulier pour les langues minoritaires qui ont relativement peu de locuteurs ou de contributeurs pour leurs versions linguistiques respectives de Wikipédia, ou qui sont mal couvertes par les traducteurs automatiques. Le tout avec une approche algorithmique classique, complètement différente de celle de la traduction issue d'apprentissage machine qui connaît un gros engouement actuellement, qui n'est pas transparent du tout.

Pour arriver à un chemin pour concrétiser ce projet il a fallu poser pleins de bases et plus d'une décennie maintenant. C'est porté depuis longtemps par un wikipédien, Denny Vrandecic, dont voici un podcast d'entretien en anglais par exemple, depuis maintenant plus d'une décennies. Retraçons brièvement les étapes.

D'abord il y a eu Wikidata, une base de données collaborative en ligne adossée à Wikipédia. Wikidata a permis de connecter les différents sujets des articles et de créer un embryon de vocabulaire commun. Chaque sujet (ou presque, ne chipotons pas trop) a un identifiant. Paris (la capitale de la France) est Q90, Paris, au Texas est Q830149, et Paris, Texas (le film) est Q160946 (vous suivez ?). L'amour est Q316 et la haine est Q160232. Tous ces concepts sont reliés par des ''propriétés'' entre eux, qui permettent de les décrire un minimum et d'entrer des données à leur sujet, comme toute base de donnée qui se respecte. C'est public, accessible à tous et sous licence libre, par le wiki, une API web et un point d'accès sparql. Wikidata fête actuellement Ses 13 ans

Puis Wikidata, en plus de tout ça, s'est vu adjoindre une partie lexicale et est devenu également une base de donnée de mots, dans toutes les langues. On peut y trouver différentes informations, dont en particulier les sens des mots et leur flexion, la catégorie grammaticale, le système d'écriture … avec un modèle souple qui permet à la communauté de créer elle même ses propriétés pour rajouter le type d'information qu'elle souhaite, ce n'est pas figé à simplement ces informations. Pourquoi était-ce nécessaire à Abstract Wikipédia ? Pour générer du texte grammaticalement correct, on va chercher à la fois le bon mot et la bonne forme textuelle en fonction de ce qu'on veut générer. Un seul exemple : le nom gato en espagnol. En naviguant sur cette page, tu verras qu'on peut y trouver différentes informations, dont la forme plurielle du mot, gatas, mais aussi un lien avec l'élément Wikidata chat domestique. Il devient donc possible de trouver automatiquement comment on dit "des chats domestiques" en espagnol à partir de l'élément wikidata représentant le concept de chat domestique. Pour illustrer, voici un lien qui permet de retrouver les lexèmes (mots de la base, pour simplifier) qui ont un sens de ''chat domestique'' https://w.wiki/Fka$ C'est aussi possible de récupérer les libellés (label) des éléments Wikidata, mais on ne disposera pas des flexions quand elles sont nécessaires. Rapidement voilà la requête écrite en SPARQL pour permettre d'y accéder :

select ?lexeme ?lemme ?langueLabel   # sélections des variables à projeter / afficher, comme en SQL 
{ 
  # on interroge une base de données sparql à partif de "motif de triplets" à trou pour les valeurs qu'on veut récupérer
  ?sens wdt:P5137 wd:Q146 .          # wdt:P5137 est la propriété "élément pour ce sens", on récupère les identifiant des sens qui correspondent au chat domestique ( wd:Q146 ) 
  ?lexeme ontolex:sense ?sens .      # on fait le lien entre les sens sélectionnés et les lexèmes idoines
  ?lexeme wikibase:lemma ?lemme .    # on récupère le lemme, une forme du mot privilégiée
  ?lexeme dct:language ?langue .     #    et la langue du lexème

  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],mul,en". } # service de récupération de libellés des langues, sous forme de ?langueLabel
}

Le modèle de données, pour aller plus loin, c'est par ici, et le portail du point d'accès SPARQL pour une intro à tout ça. Pour l'accès au données il y a également une API mediawiki ancienne école et une API REST plus récente, en fonctions des préférences et circonstances.

Et puis il y a eu Wikifunctions, projet qui a bien progressé depuis la dernière fois qu'on en a causé, et c'est ce qui m'a motivé à poser mes doigts sur mon clavier pour en écrire ici. Le but de Wikifunctions est, en plus de fournir une base de données informatique libre de fonctions qu'on peut appeler, et écrire dans plusieurs langage (actuellement 3 : la forme "composition", ou on compose simplement des fonctions Wikifunctions comme dans une formule de tableur, Python et Javascript), est surtout de fournir des fonctions qui vont calculer les textes localisés à partir de la langue abstraite.

Dernièrement, tout récemment donc à l'échelle de ce projet au long cours si on considère que les prémisses datent d'il y a 13 ans (et même plus), on a pu voir les premiers exemples qui rentrent réellement dans le vif du sujet et permettent de générer du texte. Un premier exemple préfigure la génération de phrase d'introduction des articles. Sous vos yeux ébahis, voici la page de la fonction nommées en français _instanciation de fragment sans article. Ok, il va falloir qu'on cause du nommage des fonctions. On peut critiquer le fait que c'est verbeux et pas clair pour l'instant, c'est vrai. On notera surtout que, comme pour les élément Wikidata, le nom de la page est l'identifiant de la fonction, ''Z26039'', et qu'elle aura un nom propre dans les différentes langues, dans l'esprit multilingue qui irrigue tous ces projets. Exactement comme les libellés des éléments Wikidata.

Il faut voir quoi ? Par exemple qu'on peut maintenant appeler les fonctions sur leur page à titre d'illustration. On a des champs typés qu'on peut remplir, en l'occurrence "entité", "classe" et "langue". En rentrant "Wikipédia" "communauté" et "anglais" (attention à rentrer les bons éléments, les libellés peuvent être ambigus évidemment) on obtient … à « Wikipedia is a community ». Et avec "français" à la place d'anglais on obtient « Wikipédia est une communauté », genré au féminin.

C'est encore très parcellaire comme couverture. Par exemple si on rentre "espagnol", on obtient "néant". Ainsi que si on rentre "George Sand", "être humain" et "français" par exemple.

Il faut voir quoi d'autres ? Il y a différentes implémentations de la fonction, potentiellement, et des tests pour voir si les implémentations rendent bien le résultat attendu également sur la page. Dans les nouveautés récentes, des wikis ont maintenant accès aux wikifonctions, les wiktionnaires en particulier je crois pour l'accès aux données lexicographiques. Les wikifonctions ont accès aux données de Wikidata également.

Pour les 13 ans de Wikidata, une proposition de wikifunctions, développer un système pour générer des descriptions automatiques, toujours dans le dernier Status update, ce qui pourrait enlever le fardeau à la communauté de maintenir des descriptions pour les éléments dans 200 langues et est une application intéressante et plus facile dans un premier temps que de générer des articles Wikipédia en entier !

L'équipe propose un premier prototype de fonction pour décrire les albums musicaux, _short description for albums à titre d'exemple. Elle propose aux wikimediens de voter sur Phabricator pour la tâche pour motiver l'équipe de Wikidata à travailler sur une intégration de cette fonctionnalité !

Dernier point un peu technique sur cette fonctionnalité, aussi détaillé dans le lien, chaque langue à une fonction dédiée, qui est je crois à l'heure ou j'écris ces lignes manquante pour le français, avis aux amateurs ! La fonction short description for album est celle qui va distribuer l'appel de fonction à la fonction de la bonne langue au travers d'un objet de configuration pour faire la correspondance, objet qu'on peut trouver par ce lien.

C'est assez long comme ça, je déconn

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Envie de traduire automatiquement un livre et de le faire imprimer

2022-11-21T10:48:28+01:00

Bonjour à tous,

J'ai découvert récemment un bouquin en anglais que je trouve passionnant et que j'aimerai traduire et imprimer pour un usage privé (pas pour le revendre).

N'étant ni traducteur, ni imprimeur, je voudrai bien sûr passer par des outils existants et je me suis dis que la communauté linuxfr avait sans doute quelques conseils à donner sur ce sujet :).

Voici donc plein de questions en vrac :

Est-ce légal de traduire et d'imprimer un livre à titre personnel ?
Je voulais le faire traduire automatiquement, quel logiciel/site conseillez vous ? J'ai déjà entendu parlé ici de DeepL, est-ce toujours une référence ? Pour info, le livre que je veux traduire c'est de l'histoire des sciences avec pas mal de termes techniques et médicaux
Je peux avoir le livre sous plusieurs format : epub, pdf. Quel est le format le plus adapté pour une traduction automatique ? Et pour le faire imprimer ? C'est pratique d'imprimer du epub ?
Enfin, est-ce que vous avez des bons site d'imprimeurs en ligne pour des ouvrages type livre avec quelques graphiques et schéma ? J'en avais testé un plutôt bien pour imprimer un livre sous format numérique, mais le souci c'est qu'il ajoutait sur chaque page un truc genre : "ce document est la propriété exclusive de…" pas trop gênant, mais si on peut faire sans c'est mieux. J'imagine que c'est pour éviter des problèmes légaux.

Voilà, si vous avez une réponse à l'une de ces questions ça m'intéresse !

Bonne journée,
Andréas

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Le dictionnaire des francophones : un dictionnaire francophone structuré libre

2022-02-13T14:50:26+01:00

Les mots sont à la mode alors j’en profite pour parler d’un projet intéressant de quelques mois d’age, pour sa sortie officielle : le dictionnaire des francophones réalisé avec l’institut international de la francophonie.

https://www.dictionnairedesfrancophones.org/

C’est un projet de dictionnaire structuré collaboratif, créé entre autre avec les données du wiktionnaire. Réalisé (entre autre ?) par le wikimédien Noé
On peut y consulter un mot comme motus.

Jusque là rien de très original, des dictionnaires comme ça on en a plutôt pas mal en consultation sur le net.

Ce qui est beaucoup plus original c’est la présence d’un point d’accès SPARQL pour faire des requêtes sur les données ! On a donc un graphe RDF structuré par un modèle de donnée documenté et des relations entre les mots et leurs formes, leur définition, leur étymologie …

La communauté du wiktionnaire liste des requêtes intéressantes sur cette page.

Quel est le prétexte à cette assez fruste introduction du projet des mois après sa sortie ? Une tentative de requête de plus pour trouver les suites de 5 lettres qui pourraient servir à un wordle francophone .

On peut discuter des résultats en commentaires, mais j’ai l’impression qu’il en manque :)

La prochaine fois, les données lexicale structurées de Wikidata.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Abstract Wikipédia

2020-07-06T08:29:28+02:00

https://www.developpez.com/actu/306881/Abstract-Wikipedia-le-projet-experimental-de-l-encyclopedie-en-ligne-utilise-un-langage-de-description-pour-generer-du-contenu-dans-d-autres-langues/

Commentaires : voir le flux Atom ouvrir dans le navigateur

Analyse de texte

2015-12-15T01:13:52+01:00

Mon but est d’analyser la fréquence de syllabes ou de mots depuis différents textes. Les fréquences d’apparition de chaque mot/syllabe étant cumulées dans une base de données.

À chaque fois que j’ai posté du code ici je n’ai reçu que des critiques constructives alors je vous soumets celui-là :)

Le code fait ce que je lui demande mais il est très lent sur de gros textes. Je pense que le problème se situe dans mes interactions avec la base de données. J’ai ~~quelques~~ une idée pour remédier à ce problème, vous verrez plus bas, vous me donnerez peut-être votre avis.

#!/usr/bin/env python3

"""Reader.py: Read text for strings frequency."""
__author__ = "M4rotte"
__copyright__ = "Copyright 2015, Institut Marotte pour un Mouling de Qualitäy"
__license__ = "GPL"
__version__ = "0.1"

import sys                                  # SYS module (used for argument management)
import re                                   # Regular expressions
import sqlite3                              # SQLite
import time                                 # Time is something you've never have enough
from collections import deque               # Read buffer

MAXLEN = 24
KEEPMAXLEN = 3 # Over this length we only keep strings which don't match following regexp to avoid too many splitted words
reKEEP = re.compile(r'^( |[A-ZÉÀÔ])(.*)( |\n|\.|,|\;)$')
buf = deque(['' for s in range(MAXLEN)])
counter = 0
string = ''
strings = {}
strings_ok = {}
dbfile = './reader.sqlite'

### Read input and populate `strings{}`
try:
  while True:
    c = sys.stdin.read(MAXLEN-1)
    if c:
      for i in range (0,len(c)):
        buf.popleft()
        buf.append(c[i])
      #print(buf)
      for i in range (MAXLEN-len(c)-1, MAXLEN):
        string = ''
        for j in range (i, MAXLEN):
          try:
            #print("(i,j):"+str(i)+","+str(j))
            if buf[i]:
              string += buf[j]
              s = string.replace ("\n"," ")
              string = s.replace("  "," ")
            if len(string) > 1:
              strings[string] += 1
              #print ("ANOTHER:"+string)
          except KeyError:
            strings[string] = 1
            #print ("NEW:"+string)            
      #print(strings)
      counter += 1
    else:
      break

except KeyboardInterrupt as e:
  sys.stderr.write (repr(e))
  sys.stderr.flush()
  sys.stdout.flush()
  exit(1)

sys.stderr.write (str(counter) + "\t×"+ str(MAXLEN) + " bytes read.\n")
sys.stderr.write (str(len(strings)) + "\traw strings.\n")

### Remove unwanted strings
for s in strings:
  if len(s) < KEEPMAXLEN:
    strings_ok[s] = strings[s]
  elif reKEEP.match(s):
    strings_ok[s] = strings[s]
    #print(s) 

### Free some memory
buf.clear()
strings.clear()

sys.stderr.write (str(len(strings_ok)) + "\tOK strings.\n")

# Open database
connection = sqlite3.connect(dbfile)
cursor = connection.cursor()
# Create SQLite table if not exists, to store shits…
cursor.execute('create table if not exists strings (string text primary key, freq int)')  

# Store `strings_ok{}` into database
inserted = 0
updated = 0
for s in strings_ok:
  try:
    cursor.execute("insert into strings values (?, ?)",(s, strings_ok[s]))
    inserted += 1
  except sqlite3.IntegrityError:
    updated += 1
    cursor.execute("update strings set freq=freq+? where string like ?",(strings_ok[s],s))
  if ((inserted+updated) % 100 == 0):
    prog = (inserted+updated)/len(strings_ok)*100
    sys.stderr.write ("Database update: "+str(round(prog,1))+"%\r")
    sys.stderr.flush()
print("Database update:\tOK.      ")

cursor.execute("select count(*) from strings")
count = cursor.fetchone()[0]

sys.stderr.write (str(inserted)+"\tstrings inserted in database.\n")
sys.stderr.write (str(updated)+"\tstrings updated in database.\n")
sys.stderr.write (str(count)+"\trecords in database.\n")

connection.commit()
connection.close()

Je pense que la grosse erreur se situe ici :

cursor.execute("update strings set freq=freq+? where string like ?",(strings_ok[s],s))

ce doit être une requête coûteuse à cause de la clause where…

Donc mon idée serait de reporter l’incrément des compteurs au niveau du code Python, ce qui ne nécessite qu’un select, puis de remplacer l’update par un insert or replace…

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Galaxie Wikidata : le hub est en extension

2015-01-25T14:11:59+01:00

On a régulièrement parlé ici de Wikidata (pour ceux qui ne seraient pas convaincus, consultez le tag idoine. C'est un projet bas niveau, qui ne prend sens que si les données que la bases stocke sont utilisées.

Ça fournit une explication au titre de mon journal à dessin obscur a dessin, dans l'immense espace à explorer qu'est le cyberespace, il existe des connexions infinies et des étoiles à explorer. Des nouveaux outils et des routes galactiques viennent en permanence le peupler, certaines constituant des hubs permettant de créer des ponts entre les différents univers du web

Trève de lyrisme, du concret : dans les nouvelles hebdomadaires Wikidata [1], deux projets intéressant illustrant cette notion de Hub (encore plus central depuis que google va intégrer freebase dans Wikidata):
* Un outil de traduction automatique des articles Wikipédia, utilisant les labels des items Wikidata pour les ébauches de traduction
* Une intégration de Wikidata dans gnome shell, pour intégrer Wikidata dans les recherches de gnome [3]. C'est moins ambitieux que Nepomuk, mais c'est un début.

Au passage je découvre Apertium, l'outil libre utilisé pour la traduction automatique. À suivre.

[1] https://www.wikidata.org/wiki/Wikidata:Status_updates/2015_01_24
[2] https://blog.wikimedia.org/2015/01/20/try-content-translation/
[3] https://github.com/6ahodir/wikidata-search-provider

PS: j'en profite encore pour tenter de repousser l'entrée 1291 du suivi. Oui je suis lourd.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Un entretien avec le conseiller scientifique de TBBT

2014-09-19T01:08:06+02:00

/. nous gratifie d'un entretien avec le conseiller scientifique de The Big Bang Theory, une série américaine que vous connaissez sans doute ;-)

http://entertainment.slashdot.org/story/14/09/17/0116249/interviews-david-saltzberg-answers-your-questions-about-the-big-bang-theory

C'est en anglais, j'imagine que certains pourront proposer des traducteurs en ligne un peu plus efficaces que google trad, ou même que http://apertium.org (qui obligerait sans doute à passer par l'espagnol ou l’espéranto pour faire la traduction anglais => français).

On y apprend que ce conseiller s'est efforcé de ne pas laisser passer d'erreurs scientifiques, en accord avec les scénaristes et les acteurs, même s'il reconnaît qu'il peut y avoir une ou deux coquilles. Ce scientifique reconnaît qu'il n'a plus le temps de s'intéresser à la culture geek :/ Même s'il est content de pouvoir parler de matière noire et autres termes, qui donneront l'envie à certains d'aller approfondir via wikipedia, voire susciter des vocations scientifiques. La série a tout de même mobilisé quelques invités de renom : que ce soit Stephen Hawking, Steve Wozniak, Stan Lee ou Buzz Aldrin.

Si vous trouvez intéressants ce genre d'entretien, il serait possible d'en préparer dans l'espace de rédaction (il y en a d'ailleurs en cours). Mais qui serait-il possible de contacter en restant dans le domaine des séries ? Monsieur Poulpe pour Nerdz ? Simon Astier pour [Hero Corp] ? Un des auteurs de Métal Hurlant Chronicles ? D'autres envies ou possibilités ?

À vous les studios !

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

De la prédiction de l'auteur d'un journal sur linuxfr

2012-04-12T15:27:54+02:00

Voici un journal relatant une petite expérience que j'ai faite, c'est peut-être un peu HS, mais je trouve ça cool donc je m'y risque :)

Je me suis récemment demandé si il était possible, à partir d'une base de données de messages, de deviner l'auteur d'un message donné.
J'ai donc codé un script qui, à partir de l'analyse statistique de nombreux journaux sur linuxfr, devrait déterminer l'auteur d'un journal inconnu.

Le principe est simple : On regroupe les journaux de chaque auteur, et on regarde la densité de chaque mot, des caractères spéciaux (ponctuation…), des majuscules…
Il suffit ensuite, de regarder si la densité de ces éléments dans un journal inconnu est plus ou moins proche de celle des journaux de chaque auteur connu.

Il s'avère que ce système est plutôt concluant :

Prenons le dernier journal de paladar.
Je le donne à manger à mon script, qui va classer les 77 personnes pour lesquelles j'ai plus de 5 journaux en mémoire (histoire d'avoir une base à peu près solide de référence pour chaque personne), par ordre de probabilité qu'elle ait posté le message.
Après passage à la moulinette, mon script renvoie en première position paladar !
Il a donc, à partir de 8 lignes de texte, trouvé l'auteur du message parmi 77 personnes.

Si je prend le dernier journal de gnumdk, mon script sort gnumdk en 4è position (sur 77), il n'est donc pas premier, mais il est bien sorti de la masse.
Pour ce journal, niconico se retrouve en 2è position.
Et pour finir, si je prend une dépêche, patrick_g sort bien en première place, alors que mon script à seulement vu quelques journaux qu'il a pu rédiger.

On voit donc, qu'en faisant quelques statistiques sur un texte, on peut arriver à sortir l'auteur probable de ce dernier, avec pas mal de facilité.

Après, il arrive parfois que le script ne soit pas du tout pertinent (pour des personnes ayant un style d'écriture ressemblant trop à d'autres, si il y a des citations…), mais il l'est dans un bon nombre de cas.
La pertinence dépend d'ailleurs beaucoup de la taille du texte inconnu : Si il est tout petit, il est logique qu'il soit bien plus dur de trouver l'auteur.

On imagine donc qu'avec des techniques plus évoluées, il est possible d'avoir des résultats assez impressionnants.

Je vous donne l'archive contenant le fichier contenant les journaux ainsi que mes scripts, si vous souhaitez vous amuser, ou regarder le code source (les commentaires à ce sujet sont bienvenus). Je vous conseille d'utiliser pypy pour faire tourner les scripts (ça pourra les accélérer).

PS : Je tiens à remercier les serveur de linuxfr pour leur coopération lors de l'aspiration des journaux.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

La stéganographie et le traitement automatique des langues

2011-03-20T18:58:06+01:00

La stéganographie et le traitement automatique des langues

Bon-jour-nal,

Alors, ceci n'a pas vraiment de rapport avec le logiciel libre, mais je me dis que ça intéressera sûrement les gens du coin. J'avais envie de partager mes petites connaissances accumulées ces derniers jours sur le sujet. Au pire, je me ferai moinsser et je ne le referai plus :)

Déjà, qu'est-ce que la stéganographie ? Sa problématique est de transmettre un message de manière à ce que seul le destinataire remarque son importance. Généralement un support (une image, un son ou un texte par exemple) est utilisé afin de cacher un message. Un domaine lié est le tatouage numérique, les concepts sont similaires, modifier peu le document support, mais dans une optique différente, le marquage du support, souvent pour pouvoir le tracer.

Le Traitement Automatique des Langues (TAL) consiste à utiliser l'informatique pour analyser et traiter les langues.

Les recherches dans le domaine de la stéganographie linguistique sont récentes, les premiers articles semblent dater des années 2001-2002. Cela paraît normal quand on sait que les grandes avancées dans le domaine du traitement automatique des langues ont été faites peu avant et qu'elles étaient prérequises aux recherches en stéganographie linguistique.

Bon, rentrons dans le vif du sujet, c'est-à-dire le fonctionnement de la stéganographie linguistique. La méthode décrite ici correspond à celle de cet article. Cette méthode n'est bien sûr pas la seule mais elle permet de comprendre le principe. Nous devons d'abord décider comment nous obtiendrons des informations (des bits) à partir modifications que nous espérons non-détectables. Tout d'abord, nous avons besoin d'un «dictionnaire» contenant en entrée des expressions et en définition des expressions équivalentes. L'idée est d'abord d'avoir un algorithme qui évalue les expressions du texte que nous pouvons remplacer. Ensuite, afin d'obtenir un bit, nous posons que le remplacement par une expression équivalente égale 0 et que le non-remplacement égale 1. Nous avons donc un algorithme, très basique, qui nous permet de cacher des informations dans un texte. Cet algorithme n'est cependant pas très efficace en terme de ratio longueur texte/longueur message caché, mais il n'est destiné qu'à expliquer le principe.

Ensuite, pour recouvrer le message, le destinataire doit simplement posséder le même dictionnaire, le même système d'évaluation et réaliser l'opération en sens inverse.

Tout cela n'était que le fonctionnement simplifié de l'algorithme. En pratique, il faut aussi vérifier que les remplacements effectués soient corrects sémantiquement et grammaticalement, sinon le document paraîtra suspect. Les auteurs de l'article proposent d'utiliser Google N-gram afin de vérifier que les remplacements existent bien dans la langue. Ensuite, afin d'obtenir un meilleur ratio bit par phrase, il est possible d'utiliser plusieurs dictionnaires, dans un ordre prédéfini, traitant de problème différents : synonyme et syntaxe(passivation, thématisation ou emphase) par exemple. En ce qui concerne la clef, nous pouvons par exemple définir un nombre qui définit les phrases à traiter ou leur ordre de traitement si nous utilisons plusieurs dictionnaires.

Concernant les limites de cette méthode, il est fort probable que ses performances dépendent de la langue utilisée, ou formulé différemment, il est fort probable que les langues, suivant leur fonctionnement se prête mieux à certains traitements. Certains texte ne sont pas appropriés à ces changements, notamment les textes fameux...
Le dernier point, le plus important il me semble, c'est le calcul de la résistance de ces systèmes de stéganographie, comment les évaluer ?
(Si vous avez des idées, n'hésitez pas à les exprimer dans les commentaires)

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Zino, RMS

2011-03-02T04:25:50+01:00

Alors SamWang, il a répondu quoi RMS ?

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Watson, Jeopardy et le test de Turing

2011-01-17T18:00:15+01:00

Vous connaissez tous le jeu Jeopardy qui passe sur les télévisions de plusieurs pays. En gros les candidats gagnent de l'argent en répondant à des questions. Mouaif pas très nouveau tout ça.
Le seul truc un peu original c'est qu'en fait l'interrogateur donne la réponse et que c'est au candidat de reconstituer la question.
Exemple: Si l'interrogateur vous dit "LinuxFR" vous devez répondre "Quel est le site francophone qui rassemble le plus de trolleurs"....ou un truc de ce style.

C'est un jeu télévisé très populaire aux USA ou il est diffusé depuis des décennies. C'est sans doute cette popularité qui a décidé IBM a tenter un gros coup technologique et publicitaire.
Il y a 15 ans IBM avait déjà défié et vaincu le champion du monde d'échecs avec son calculateur Deep Blue. Cette fois c'est au Jeopardy que s'attaque la firme américaine avec son programme d'intelligence artificielle Watson.
Ce programme tourne sur une bonne machine: 10 racks de serveurs Power 750 ce qui représente 360 processeurs Power7 pour un total de 2 880 coeurs de calcul (80 teraflops). On ajoute à ça une tonne de RAM (15 Teraoctets) pour stocker la base de connaissances et la bête est maintenant prête à défier ces chétifs humains.
Bien entendu, comme l'immense majorité des supercalculateurs, Watson fonctionne sous Linux et utilise plusieurs logiciels libres (Eclipse, Hadoop, UIMA, etc).

Si on y réfléchit on se rend compte que le Jeopardy, bien que moins prestigieux intellectuellement que le jeu d'échecs, est sans doute bien plus difficile à aborder pour un ordinateur. Aux échecs tout est mathématisable et la difficulté réside presque uniquement dans la profondeur de calcul que la machine peut atteindre. Avec le Jeopardy on rentre dans la zone floue du "langage naturel" et la programmation d'une machine devient d'un seul coup plus ardue. Pour vraiment prétendre être un maître de ce jeu il faudrait comprendre réellement les questions ce qui impliquerait d'être capable de passer le fameux test de Turing.

IBM n'a pas (encore) cette prétention mais il semble que Watson se défende déjà plus que correctement. La confrontation télévisée est prévue pour le mois de février (un million pour le gagnant !) mais une répétition à déjà eu lieu le 13 janvier entre deux champions humains (Ken Jennings et Brad Rutter) et le calculateur d'IBM.
En dépit du fait que Jennings et Rutter sont des super spécialistes (74 victoires d'affilée pour l'un et 3.25 millions de dollars de gain pour l'autre) c'est la machine qui a remporté la manche lors de cette répétition. Les gains s'établissent à 4 400$ pour Watson, 3 400$ Jennings et 1 200$ pour Rutter.

Évidemment pour arriver à ce résultat la base de connaissance est cruciale. IBM annonce que Watson a été "nourri" avec 200 millions de pages de texte et plus d'un million de livres divers et variés (encyclopédies, scénarios de films, journaux, magazines, livres pour enfants, etc).
A partir de cette énorme base les algorithmes moulinent toute l'information et établissent des corrélations entre les données pour pouvoir reconstituer les questions du Jeopardy. Pour bien jouer il faut pouvoir prendre en compte l'ironie, l'argot, les jeux de mots, la subtilité de certaines questions. Comme les questions du jeu valent de plus en plus cher il faut aussi un petit peu de sens stratégique pour savoir quand répondre (si la probabilité de succès est forte) et quand passer la main (au cas ou la machine n'est pas sûre de sa réponse et risque de tout perdre).

IBM affirme que ce programme de développement (nommé DeepQA research project) pourra avoir des applications dans divers domaines. La vice-présidente d'IBM Research, Katharine Frase, évoque une assistance aux médecins sous la forme d'un programme d'intelligence artificielle capable d'interpréter les réponses des malades: "Les patients n'emploient pas les termes que les médecins ont appris à la faculté pour décrire leurs maux. Ils emploient simplement les termes qu'ils ont appris auprès de leurs parents en grandissant".
Selon elle un programme du type de Watson pourrait interpréter ces déclarations floues et établir des corrélations avec les informations médicales pertinentes disponibles dans les journaux spécialisés.
On évoque aussi une assistance juridique pour les avocats ou même, pourquoi pas, une intégration dans les moteurs de recherche que nous utilisons tous.

Bien entendu ces perspectives ne sont pas pour tout de suite. Pour l'instant il n'y a eu qu'une répétition et le vrai test contre les humains n'aura lieu que le mois prochain. Il n'empêche qu'au tout début du programme DeepQA research project les représentants d'IBM avaient déclarés que: "Si le programme parvient à battre les humains alors le domaine de l'intelligence artificielle aura fait un bond en avant".
Nous y sommes !

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Chat80

2010-06-24T14:07:06+02:00

Chat80 est bien connu dans le monde de l'intelligence artificielle et le traitement automatique du langage naturel (TALN).

Ce logiciel a été écrit en Prolog entre 1978 et 1982 par Francisco Pereira et David H. Warren. Prolog en était alors à ses balbutiements, et encore assez peu considéré sérieusement par la communauté scientifique d'alors.

Chat80 possédait à l'époque une petite base de données prolog de géographie. On y trouvait quelques informations sur les pays frontaliers les un aux autres, leur population, leur capital, leur surface ou encore les fleuves qui y coulent.

Chat80 est ce que l'on appel un NLIDB : Natural Language Interface to DataBase. On peut donc lui poser quelques questions en anglais et voir s'afficher la réponse.

Un simple exemple est tout de suite parlant :

Which country bordering the Mediterranean borders a country that is bordered by a country whose population exceeds the population of India ?
/

Et de nous répondre :
Turkey
/ (eh oui à l'époque l'URSS était un grand pays…)

(Petite parenthèse pour dire que je viens de découvrir que le fameux Wolfram Alpha qui était soit disant révolutionnaire, est quand même capable de répondre ce genre de question : http://www.wolframalpha.com/input/?i=What+are+the+capitals+o(…) )

Comment est-ce possible ?

La réponse est résumable en quelques mots, mais difficile à comprendre profondément.

Chat80 analyse la structure grammaticale de la question, dans la plus pure perspective de la grammaire générative inventée par Noam Chomsky.

Il en produit une arbre grammatical, qui va être analysé pour être transformé en requête logique, qui est exécutée. A l'époque vu les performances limités des machines, un "planner" similaires à ceux que l'on trouve dans les SGBD a été ajouté afin d'améliorer les temps de réponse.

Prenons une phrase plus simple pour l'exemple :

What are the capitals of the countries bordering the Baltic ?
/

Etiquetons la grammaticalement :

What/Whq are/Verb the/det capitals/noun of/prep the/det countries/noun bordering/Verb the/det Baltic/Noun ?

Ce qui nous donne après analyse une structure grammaticale de la phrase image_perdue.

C'est à partir de cette arbre que l'on construit la requêtes logique :

Le what initial dans la phrase, qui est un pronom, initie ce qui sera la variable

Le verbe être indique que l'on cherche un existence, donc une liste

Le COD (rappelez vous vos vieux cours de grammaire … ;-) ) indique que l'on cherche les capitales

La Prepositional Phrase (le COI si vous préférez*) est une phrase entière The countries bordering the Baltic.

Là encore on a une structure SVO (Sujet Verbe Complément). Elle s'analyse simplement : border(X,baltic) **

Or comme cette phrase se trouve dans une Prepositional Phrase, X est une variable liée

Chat80, en mode trace, nous donne :

answer([$VAR(0)]) :-  
£spaces£   £/spaces£$VAR(0) = setof ( [$VAR(1)]: $VAR(2) , country($VAR(1)) )     
£spaces£      £/spaces£&amp;  
£spaces£   £/spaces£borders($VAR(1), baltic)   
£spaces£      £/spaces£&amp;  
£spaces£   £/spaces£$VAR(2) = setof ( $VAR(3)   capital($VAR(1), $VAR(3)) )

Le set of est une sorte de select/where

On pourrait l'écrire :

Select $country,$capital where  
£spaces£   £/spaces£country($country)  
and   
£spaces£  £/spaces£borders($country,Baltic)  
and  
£spaces£  £/spaces£capital($country,$capital)

Quelques progrès on été réalisés depuis (compréhension d'une conversation et de l'implicite), ainsi que quelques tentatives commerciales.

Cette approche a plusieurs problème : l'anglais doit être grammaticalement correcte, et reconnue par le logiciel. Des ambigüités peuvent apparaître.

Si l'on se connecte à un SGBD relationnel, il faut pouvoir faire la liaison entre l'anglais pur et propre et des champs du genre Client_no ou Client_adresse.

Malgré cela, ce genre d'approche recèle une puissance inexploitée : imaginez le gain de temps que l'on peut faire sur des requêtes complexes, des algorithmes, etc…

Un mot sur le libre.

J'ai écrit à Pereira (impossible de trouver le mail de Warren) pour lui demander si 30 ans après cela ne le dérangeait pas de laisser son logiciel dans une licence libre (celle qu'il veut, c'est du détail).

Toujours pas de réponse au bout de 10 jours.

Il y a quelques ressources de ce genre dans le monde libre, mais ces approches sont surtout statistiques (ie. la machine apprend à reconnaitre des formes grammaticales), ce qui est très bien pour de l'analyse de texte, mais pas très adapté à des requêtes précises. Bref, rien de très exploitable en prolog dans le monde libre, à moins que je l'ai loupé…

A part ça, pas mal de choses en python (nltk, etc…).

Je vais me faire taper, mais même si je trouve python très bien, cela reste un langage impératif/objet classique. Je pense que c'est absolument pas adpté pour ce genre de problème.

Pour se donner une idée de ce qui me fait avancer cela : une implémentation un peu similaire à chat80, "Pytalk" qui fait à peine plus et pas mal de choses en moins a été faite en python.

Plus de 38 000 lignes de code.

Un parser à n'en plus finir (12 074 lignes de codes !!).

Chat80, c'est 5335 de prolog dont 1901 ligne pour les données brutes.

Cela montre l'efficacité impressionnante de ce langage pour ce genre de problème (on est bien d'accord que pour plein d'autres choses, c'est pas adapté).

Voilà, le troll est lancé, et si vous avez des liens..

Les canons de la grammaire générative ne font pas d'analyse de la fonction grammaticale à la française, où l'on cherche les Sujet, COD, COI, Complément circonstanciel, propositions relatives, subordonnées, etc…
Ce que je trouve particulièrement dommage car cela simplifie énormément l'analyse en obtenant des arbre très profond.
La grammaire générative est basé sur l'idée de pouvoir utiliser une machine à état fini pour le parsing (comme les parsers de langage de programmation) et (c'est lié) de grammaire hors contexte.
je trouve ça un peu dommage, car ce genre d'analyse de fonction grammaticale apporte une très grande aide dans l'analyse de la logique de la phrase

** Intro ultra rapide à prolog pour ceux qui ne connaissent pas : Prolog est une sorte de SGBD orienté logique et ultra puissant. On y stocke des fait :

border(france,italy).  
border(france,belgium).

Et on peut l'interroger :

border(france,X).  
X = italy  
X = belgium

On reconnait ici une forme verbe(sujet , complément)

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Bientôt des journaux LinuxFr générées automatiquement ?

2010-03-09T22:19:00+01:00

Un article intéressant sur le site du Monde aujourd'hui : http://www.lemonde.fr/web/imprimer_element/0,40-0@2-3236,50-(...)
Merci d'aller le lire avant de continuer ce journal.

Le résumé bête façon machine:
Le titre est "L'ère des robots-journalistes" et l'article évoque les travaux du laboratoire d'Intelligence Artificielle de l'université du Northwestern près de Chicago.
Tout d'abord le projet "Stats Monkey" : En gros c'est un robot qui parcours les sites web de base ball pour collecter les données et les statistiques sur un match et qui, à partir de ces stats, génère un résumé à propos du match qui ressemble comme une goutte d'eau à un article de la presse sportive. En fait, comme beaucoup de bots, il se contente "d'habiller" les données brutes avec une base de de vocabulaire restreinte.
Un autre projet est "News at Seven" qui aspire des articles de news et qui présente ensuite des avatars qui lisent le texte par synthèse vocale comme s'ils présentaient un journal.
Le projet "Tell Me More" se consacre lui à la fusion d'articles pour présenter une vue enrichie d'un sujet. On débute par recopier un article déjà existant sur un sujet donné et on y insère automatiquement des phrases, des infos ou des stats complémentaires qui viennent d'autres articles sur le même sujet. Le produit fini, qualifié de "méta-article" est censé être une meilleure version de l'article original.

Le résumé critique façon humain :
Si on réfléchit à ces projets est-ce qu'on est impressionné ? J'ai envie de de répondre non. Après tout la génération de phrases toutes faites à partir d'une base préétablie ça existe depuis longtemps (ELIZA ?). Le fait de crawler les sites web pour aspirer les stats on ne peux pas dire que ce soit le top conceptuel non plus. L'assemblage des deux est donc assez trivial il me semble. Sans doute difficile à peaufiner mais loin d'être révolutionnaire conceptuellement parlant.

Ensuite analysons la tournure de l'article du Monde qui joue un peu la carte du "On va tous mourir, ces machines vont nous remplacer". Qui sont vraiment les journalistes menacés par ces systèmes ? Est-ce que c'est le mec qui va bosser des mois pour mettre au jour une histoire de corruption ? Est-ce que c'est l'analyste stratégique pointu qui va décortiquer la politique extérieure d'un pays ? Est-ce que c'est la plume redoutable qui fait les délices des amoureux de la littérature ?
Il y a peu de chances. Les gens menacés sont, au pire, les stagiaires de l'AFP qui pondent de l'article au kilomètre. Peut-être aussi les pigistes de "20 minutes" qui, sans vouloir vexer personne, ressemblent souvent à des bots cracheur de news.
Bien entendu c'est une vue exigeante du journalisme. Tout le monde n'est pas Albert Londres c'est entendu...mais le progrès technique sera impitoyable envers la médiocrité !

Et puis un point qui n'est pas du tout abordé par l'article du Monde: Les sports étasuniens sont infestés de statistiques diverses et variées. Les curieux habitants de cette contrée lointaine adorent compulser des almanachs de stats pour savoir qui a le plus de home runs en baseball, qui a gagné le plus de yards sur une saison en football américain, qui est le plus jeune MVP des playoffs en basket, etc etc
C'est cet amour curieux des statistiques qui explique l'existence d'une multitude de sites constituant la matière première des bots journalistes mis au point au IA lab de Northwestern. En Europe je ne suis pas certain qu'un tel bot trouverait aussi facilement à manger. Ici on préfère faire des résumés de matchs avec des mots et je doute que des phrases comme "Bidule de l'équipe de Madrid a fait 54 passes hier. C'est 21% de moins que Machin de l'équipe de Manchester qui en contrepartie tire au but 2,14 fois plus souvent" passionnent les foules. C'est la subjectivité du journaliste qui fait vendre. C'est son expertise, son ton, sa voix....et pas l'annonce de stats au kilomètre.

En résumé, et comme toujours, les tâches mécaniques absurdes sont faciles à automatiser. En revanche dès qu'il s'agit de faire appel à de la réflexion et du sens critique (comme l'écriture d'un journal LinuxFr autoréférentiel ?) c'est plus dur et les journalistes peuvent encore dormir tranquille.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Apertium intègre le premier traducteur automatique breton-français

2009-05-22T00:38:42+02:00

L'Office de la Langue Bretonne a présenté le lundi 18 Mai 2009 le premier traducteur automatique breton-français, développé conjointement avec l'université espagnole d'Alicante, dans le cadre du système de traduction libre Apertium (sous licence GPL).

Apertium était initialement destiné à traduire entre des langues suffisamment voisines, mais a réussi aujourd'hui à créer des paires linguistiques plus éloignées. Il a bénéficié du soutien financier du gouvernement espagnol et du gouvernement autonome de Catalogne, ainsi que de la contribution de plusieurs entreprises et universités européennes.

lien nᵒ 1 : Apertium : plate-forme libre/de code source ouvert pour traduction automatique
lien nᵒ 2 : Office de la langue bretonne
lien nᵒ 3 : Office de la langue bretonne - Dépêche
lien nᵒ 4 : Interface web de la paire breton-français d'Apertium

Grâce à une bourse de recherche octroyée par l'Université d'Alicante, l'Office de la langue Bretonne a pu déployer un jeune technicien brittophone, Gwenvael Jequel, qui a pu collaborer avec Francis Tyers, développeur de l'équipe d'Apertium.

Dans sa première version, cet outil est capable de reconnaître et d'analyser 85% du vocabulaire de la langue bretonne et atteint un taux de correction de 55% par rapport à des traductions de référence. Son modèle de développement libre promet d'améliorer ses performances dans les prochaines versions, et d'intégrer le breton dans de nouvelles paires, plus particulièrement galloises, espagnoles et anglaises.

Un service de traduction web est disponible à l'adresse http://xixona.dlsi.ua.es/~fran/breton/troer/index.php. L'Office de la Langue Bretonne envisage de le rendre disponible aux côtés de TermOfis et de KerOfis avant l'été 2009.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Apertium français-espagnol 0.8.0 vient de sortir

2008-03-07T19:55:28+01:00

Le monde du logiciel libre ne compte que très peu de solutions de traduction automatique :

OpenLogos, projet peu actif ;
Moses, qui réalise des traductions automatiques basées sur des statistiques ;
Apertium, projet en GPL reposant sur une communauté active.

Apertium est une plateforme de traduction automatique libre et d'outils linguistiques conçue initialement pour des langues proches, comme par exemple la paire catalan - espagnol. La version 0.8.0 de la paire français-espagnol est sortie le 21 février 2008. Cette paire a bénéficié du soutien de l'entreprise Eleka Ingeniaritza Linguistikoa et a été développée par Prompsit.

lien nᵒ 1 : Capture d'écran
lien nᵒ 2 : Page officielle d'Apertium
lien nᵒ 3 : Le wiki d'Apertium
lien nᵒ 4 : Tester Apertium
lien nᵒ 5 : Moses
lien nᵒ 6 : OpenLogos

Apertium est soutenu financièrement par le ministère espagnol de l'industrie,du tourisme et du commerce, du gouvernement de la communauté autonome de Catalagone, et l'université d'Alicante, le ministère des affaires étrangères de Roumanie et par Prompsit et Eleka, deux entreprises. Plusieurs universités contribuent activement au code et outils linguistiques :
l'université d'Alicante (Valence), de Vigo (Galice), de Pompeu Fabra (Barcelone en Catalogne).

Apertium recherche des développeurs tant pour le moteur écrit en C++, que des non informaticiens pour les données linguistiques stockés dans de simples fichiers XML, ou des personnes pour réaliser des interfaces.

Vous pouvez télécharger une archive, la dernière version via svn, ou tester via l'interface web.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur