Forum général.cherche-logiciel Recherche lexique de la langue française

Posté par  .
Étiquettes : aucune
0
31
mar.
2006
Bonjour à toutes et tous,

Je suis actuellement à la recherche d'un lexique de la langue française le plus exhaustif possible. Je m'explique:

J'ai récemment développé un petit programme en perl pour permettre à mon épouse de participer à un concours organisé par son Comité d'Entreprise. Le but, après avoir rempli correctement une grille de mots croisés, est de faire le maximum de points en composant des mots (en épuisant les lettres obtenues dans la grille), sachant que la longueur de chaque mot est élevé au carré.

Mais le résultat ne fut pas à la hauteur de mes espérances .... (pas preums, ni deuze en encoire mois troize)

Après avoir testé (et retesté mon programme), j'en déduis que la liste de mots français à ma disposition n'est pas complet. Et pour cause, en ouvrant mon dictionnaire (Petit Larousse 2001) à la première page, un mot (abaca: bananier) est déjà inconnu dans ma liste. Je me doute qu'il en est de même pour les pages suivantes :(

Ma liste pèse 10Mo et compte 289563 entrées (toutes formes confondues c.a.d verbes déclinés à tous les temps, noms sing/plur etc...). Son origine : http://abu.cnam.fr/DICO/

De même, sur ma Breezy, un "aspell dump master |wc -l"me donne 629569 entrées dont les terminaisons sont tronquées (donc inutilisable) mais "abaca" n'apparaît toujours pas.

En suivant les consignes données sur le lien plus haut, je me suis mis en quête d'une liste plus complète. J'ai donc parcouru le net dans tous les sens et ce depuis 3 jours sans résultat. Mes recherches m'ont amené à passer par ici :

1 - http://www.lexique.org/
2 - http://clicnet.swarthmore.edu/dictionnaires.html
3 - http://www.elda.org/article77.html (payant)

Je suis étonné qu'une liste complète composée des mots de langue française ne soit pas disponible dans le domaine publique. Même les différentes ressources pour la recherche linguistique (multetxt et autres) sont soient inaccessibles, soient payantes.

Ma question donc, auriez-vous un lien intéressant à me donner ?

Si parmi vous il y a un détenteur d'édition électronique du Petit Robert ou du Larousse, peut-il me dire s'il est possible d'avoir accès "facilement" à cette liste ou bien leur données sont-elles encapsulées dans un binaire bien verrouillé?

Merci d'avoir pris le temps de me lire.
  • # recherche liste de mots sur google

    Posté par  (site web personnel) . Évalué à 2.

    Il y a ce (mais ce ne contient pas abaca) :
    http://www.pallier.org/ressources/dicofr/liste.de.mots.franc(...) 336531 entrées

    Et sinon c'est marrant parce que sur la page que tu indiques comme étant l'origine de ta liste je lis abaca abaca Nom:Mas+SG.

    http://abu.cnam.fr/DICO/mots-communs.html
    • [^] # Re: recherche liste de mots sur google

      Posté par  . Évalué à 1.

      Effectivement, je me suis fourvoyé dans l'exemple donné.

      Néanmoins, si je prends mon dictionnaire papier, première page de la lettre "A", je vois:

      aa: coulée de lave ....
      abc: base d'un art, d'une science.

      Je prends mon dico du cnam:

      grep "aa" dico.cnam -> inconnu
      grep "abc" dico.cnam -> inconnu ... ce qui laisse présumer de nombreux manquants.

      Il me semble avoir déja parcouru le lien donné, et de mémoire, je crois que cette liste a servi pour établir le dictionnaire_fr d'ispell .

      Néanmoins, comme je l'ai dit plus haut, le dico_cnam est un sous-produit du projet de recherche multext (http://www.lpl.univ-aix.fr/projects/multext/), projet dont je ne trouve aucune ressource.
      Il exsite forcément une liste plus complète quelque part, à l'instar de celle fournie par l'elda/elra ici :http://www.elda.org/catalogue/fr/text/L0062.html (mais moyennant finances .... plusieurs miliiers d'euros je crois)

      Merci encore, mais je désespère de trouver mon bonheur un jour, et ne pas trouver cette liste dans le domaine publique me laisse sans bras !
      • [^] # Re: recherche liste de mots sur google

        Posté par  (site web personnel) . Évalué à 2.

        Je ne connais pas le mot aa (il n'est pas dans mon petit robert ni dans le tresor de la langue francaise informatisé), mais abc n'est clairement pas un mot (c'est le genre de trucs qui sont refusés au scrabble par exemple) comme k-o.
        Sinon, le dictionnaire du scrabble est peut être une pas trop mauvaise idée, des sites comme http://www.ecoleduscrabble.net/Sommaire/listes.htm proposent des bouts de listes, mais ce ne doit pas être trivial d'en extraire la moëlle.
  • # Je ne sais pas si la liste est récupérable

    Posté par  . Évalué à 1.

    mais tu as le trésor de la langue française informatisé (contient abaca) :

    http://atilf.atilf.fr/tlf.htm

    ou le Grand dictionnaire terminologique (mais j'ai déjà eu des surprises) :

    http://granddictionnaire.com
  • # Unitex

    Posté par  . Évalué à 1.

    Bonjour,

    Tu peux jeter un oeil du coté du lexique utilisé par Unitex (http://www-igm.univ-mlv.fr/~unitex ).

    Il est sous une licence spécifique aux ressources linguistiques, dérivée de GPL (LGPLLR), et comporte pour le francais :

    680 000 mots simples
    100 000 mots composés
    24 000 noms propres
    4 200 entrées pour des termes spécialisés
    2 700 mots québécois

    Le problème est que tout ça est rangé dans un dictionnaire ayant un format spécifique (compréssé), et qu'il n'y a pas (à ma connaissance) de librairie indépendante d'Unitex pour y acceder. Donc il faut triffouiller du code pour arriver à ce qu'on veut.

    Bon courage !
    • [^] # Re: Unitex

      Posté par  . Évalué à 1.

      Je connaissais ce lien. J'ai téléchargé le code source il y a deux jours et je n'en ai rien tiré de concluant. Effectivement, les données sont dans un format inexploitable (un "file" sur les fichiers les reconnait comme du mpeg-1 si je me souviens bien).

      C'est un mélange de java (je n'y entends rien) et C++, le tout sans makefile n'y doc .... bref j'ai abandonné.

      Mais merci encore :) .... je continue mes recherches.
      • [^] # Re: Unitex

        Posté par  . Évalué à 1.

        Le java c'est juste pour l'interface graphique, en fait.

        Pour un projet de correcteur orthographique, j'ai isolé un bout de code permettant de savoir si un mot est dans la dictionnaire ou non. Si c'est suffisant pour ce que tu veux faire, contacte moi par message privé.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.