Forum général.cherche-logiciel Cherche dictionnaire

Posté par (page perso) . Licence CC by-sa
2
19
jan.
2016

Bonjour à tous,

Je cherche un dictionnaire (libre) du français, avec les propriétés suivantes : nature des mots, genre des nom, et s'il s'agit d'un dictionnaire exhaustif (tel que /usr/share/dict/french) s'il s'agit d'un pluriel ou non.

De préférence dans un format connu, mais s'il faut sortir lexx/yacc pour le traiter ça ne me gêne pas plus que ça… Par contre pas de webservice !

J'ai regardé s'il était possible d'exporter le wiktionnaire mais n'ai pas trouvé l'info, est-ce que vous auriez une idée si ce genre de chose existe ?

Merci à vous

  • # Rapidement ...

    Posté par . Évalué à 3.

    Vite fait, regarde le fil de discussion ici https://linuxfr.org/nodes/99701/comments/1487613

    Ça parle des nouvelles méthodes qui remplacent ispell dans les soft style Firefox, LibreOffice. On peut déduire du format des fichiers toutes les informations permettant de trouver toutes les déclinaisons d'un mot.

  • # bien mieux

    Posté par . Évalué à -8.

    kiwix
    http://www.kiwix.org/wiki/Main_Page/fr
    permet de lire des données au format zim en mode déconnecté
    exemple le wiktionnaire de wikipedia,le 2015 est disponible
    prendre la version all pour avoir les images en plus
    http://download.kiwix.org/zim/wiktionary/
    dans l'interface choisir,ouvrir un fichier
    il y a un processus d'indexation du contenu assez long à chaque installation

    • [^] # Re: bien mieux

      Posté par . Évalué à -8. Dernière modification le 19/01/16 à 19:02.

      https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Wikip%C3%A9dia_hors-connexion

      http://download.kiwix.org/portable/wiktionary/
      pour avoir kiwix-linux 0.9 le zim et l'index du zim

      http://mirror3.kiwix.org/portable/wiktionary/kiwix-0.9+wiktionary_fr_all_2015-11.zip

      après le dézipage,il y a un index pour le zim (zim.idx)
      dans kiwix-0.9+wiktionary_fr_all_2015-11/data/index

      • [^] # Re: bien mieux

        Posté par . Évalué à -10.

        exemple de repertoire /data alternatif pour kiwix
        dans son menu "modifier,options" choisir le dossier data alternatif puis relancer kiwix

        il y a trois dossiers dans data:
        content pour les archives zim
        index pour les index zim.idx
        library pour library.xml

        un exemple dans library.xml
        ici deux livres sont indexés

        
        <?xml version="1.0"?>
        <library current="63d43686-53a9-3306-05d1-44e22d43b400" version="20110515">
            <book id="57b870bb-1e50-083f-e7e2-1aab092109b2" path="../content/ICD10-fr.zim" last="1453544603" indexPath="../index/ICD10-fr.zim.idx" indexType="xapian" title="ICD-10" description="Classification statistique internationale des maladies et des problème de santé connexes" language="fra" creator="Organisation Mondiale de la Santé" publisher="Kiwix" favicon="iVBORw0KG5CYII=" faviconMimeType="image/png" date="2012-01-09" url="http://download.kiwix.org/zim/other/icd10_fr_all_2012-01.zim.meta4" articleCount="281" mediaCount="1" size="409" />
            <book id="63d43686-53a9-3306-05d1-44e22d43b400" path="../content/wiktionary_fr_all_2015-11.zim" last="1453544629" indexPath="../index/wiktionary_fr_all_2015-11.zim.idx" indexType="xapian" title="Wiktionnaire" description="Définition, traduction, prononciation, anagramme et synonyme sur le dictionnaire libre Wiktionnaire." language="fra" creator="Wiktionary" publisher="Kiwix" favicon="iVBORw0KGRAIFnE" faviconMimeType="image/png" date="2015-11-19" url="http://download.kiwix.org/zim/wiktionary/wiktionary_fr_all_2015-11.zim.meta4" articleCount="2862613" mediaCount="31565" size="782951" />
        </library>
        
        
  • # La BDD d’anagrime, issue du wikitionnaire

    Posté par (page perso) . Évalué à 2.

    https://tools.wmflabs.org/anagrimes/index.php

    Et sinon il faut demander sur la wikidémie. On ne mange les nouveaux que lorsqu’on a vraiment très faim.

  • # Aard

    Posté par . Évalué à 1. Dernière modification le 19/01/16 à 23:58.

    http://aarddict.org/
    Permet d'indexer et d'utiliser wiktionary off-line.
    Je ne saurai en dire plus quand à la hackabilité de le leur bibiothèques python ou simplement de la réutilisation de leur fichier d'indexation, simplement que leur visionneuse marche toujours très bien chez moi et que la procédure d'indexation a duré une petite nuit sur un portable plus tout jeune (avec les version de septembre 2014, donc v1 et format aard cf. http://aarddict.org/1/aardtools/doc/aardtools.html ).

    Apparemment maintenant, ils utilisent un autre format (slob) et ils fournissent des dico préindexés.

    Slob format design is influenced by Aard Dictionary’s aard and ZIM file formats. Similar to Aard Dictionary, it allows to perform non-exact lookups based on UCA’s notion of collation strength. Similar to ZIM, it groups and compresses multiple content items to achieve high compression ratio and can combine several physical files into one logical container. Both aard and ZIM contain vestigial elements of predecessor formats as well as elements specific to a particular use case (such as implementing offline Wikipedia content access). Slob aims to provide a minimal framework to allow building such applications while remaining a simple, generic, read-only data store.

    (* https://github.com/itkach/slob )

    Bref, je ne saurais que te conseiller d'aller aussi étudier cette solution et de revenir ensuite partager avec nous les résultats de tes investigations ;-)

  • # Dicolecte

    Posté par (page perso) . Évalué à 3.

    En suivant de la piste du dictionnaire firefox, je suis tombé sur dicolecte qui propose un dictionnaire hunspell pour le français (utilisé par ff, libreoffice) etc.

    L'API d'hunspell étant vraiment très simple, et récupérer les données sur un mot peut se faire en quelques lignes :

        const char* word = "voiture";
    
        Hunhandle* dic = Hunspell_create("fr.aff", "fr.dic");
    
        printf("%s found: %d\n", word, Hunspell_spell(dic, word));
        printf("encoding: %s\n\n", Hunspell_get_dic_encoding(dic));
        int i;
    
        char **stypes;
    
        int type_size = Hunspell_analyze(dic, &stypes, word);
        printf("types count: %d\n", type_size);
        for (i = 0; i < type_size; i++ ) {
            printf("Type: #%d : %s\n", i, stypes[i]);
        }
        Hunspell_destroy(dic);

    et la sortie :

    voiture found: 1
    encoding: UTF-8
    
    types count: 1
    Type: #0 :  st:voiture po:nom is:fem is:sg

    J'ai donc trouvé une base de données et le moyen de récupérer la nature d'un mot, son genre, son nombre. C'était exactement ce que je voulais. Inutile de réinventer la roue ! Je vais donc partir dans cette direction.

  • # OmegaWiki

    Posté par (page perso) . Évalué à 1.

    Salut,

    Je suis épaté que personne n'ai cité OmegaWiki qui pourtant fournit une fonction intéressante (extrait de Wikipedia English) :
    Unlike the original Wiktionaries, OmegaWiki will allow for the download of data, particularly for reuse with other software. For example, software Computer assisted translation (CAT), dictionary software on a local computer and spellcheckers.

    Je suppose que c'est parce c'est un projet assez méconnu ! J'y suis tombé dessus par hasard, ce week-end en cherchant un dictionnaire (pour un smartphone Android) : un des dico indiquait qu'il utilisait les données de OmegaWiki.
    Je n'en sais pas plus que la page Wikipedia English et la home page d'OmegaWiki.

    Bonne continuation,
    L@u

  • # liste de mot

    Posté par . Évalué à 1.

    J'en profite pour poser ici une question à laquelle je n'avais pas trouvé de réponse il y a quelque temps. Est-ce qu'il existe une méthode pour récupérer la liste des entrée de wikipedia (ou d'une sous-partie) ?

    Bonne journée !

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.