Forum général.cherche-logiciel Cherche dictionnaire

Posté par chimrod (site web personnel) le 19 janvier 2016 à 16:23. Licence CC By‑SA.

Étiquettes :

jan.

2016

Bonjour à tous,

Je cherche un dictionnaire (libre) du français, avec les propriétés suivantes : nature des mots, genre des nom, et s'il s'agit d'un dictionnaire exhaustif (tel que /usr/share/dict/french) s'il s'agit d'un pluriel ou non.

De préférence dans un format connu, mais s'il faut sortir lexx/yacc pour le traiter ça ne me gêne pas plus que ça… Par contre pas de webservice !

J'ai regardé s'il était possible d'exporter le wiktionnaire mais n'ai pas trouvé l'info, est-ce que vous auriez une idée si ce genre de chose existe ?

Merci à vous

# Rapidement ...

Posté par pifou le 19 janvier 2016 à 17:09. Évalué à 3.

Vite fait, regarde le fil de discussion ici https://linuxfr.org/nodes/99701/comments/1487613

Ça parle des nouvelles méthodes qui remplacent ispell dans les soft style Firefox, LibreOffice. On peut déduire du format des fichiers toutes les informations permettant de trouver toutes les déclinaisons d'un mot.
- [^] # Re: Rapidement ...
  
  Posté par chimrod (site web personnel) le 19 janvier 2016 à 17:32. Évalué à 2.
  
  Super, merci de la piste. Je vais regarder ça.
# bien mieux

Posté par robertix le 19 janvier 2016 à 18:03. Évalué à -8.

kiwix
http://www.kiwix.org/wiki/Main_Page/fr
permet de lire des données au format zim en mode déconnecté
exemple le wiktionnaire de wikipedia,le 2015 est disponible
prendre la version all pour avoir les images en plus
http://download.kiwix.org/zim/wiktionary/
dans l'interface choisir,ouvrir un fichier
il y a un processus d'indexation du contenu assez long à chaque installation
- [^] # Re: bien mieux
  
  Posté par robertix le 19 janvier 2016 à 19:00. Évalué à -8. Dernière modification le 19 janvier 2016 à 19:02.
  
  https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Wikip%C3%A9dia_hors-connexion
  
  http://download.kiwix.org/portable/wiktionary/
  pour avoir kiwix-linux 0.9 le zim et l'index du zim
  
  http://mirror3.kiwix.org/portable/wiktionary/kiwix-0.9+wiktionary_fr_all_2015-11.zip
  
  après le dézipage,il y a un index pour le zim (zim.idx)
  dans kiwix-0.9+wiktionary_fr_all_2015-11/data/index
  - [^] # Re: bien mieux
    
    Posté par robertix le 23 janvier 2016 à 11:46. Évalué à -10.
    exemple de repertoire /data alternatif pour kiwix
    dans son menu "modifier,options" choisir le dossier data alternatif puis relancer kiwix
    
    il y a trois dossiers dans data:
    content pour les archives zim
    index pour les index zim.idx
    library pour library.xml
    
    un exemple dans library.xml
    ici deux livres sont indexés
```
<?xml version="1.0"?>
<library current="63d43686-53a9-3306-05d1-44e22d43b400" version="20110515">
    <book id="57b870bb-1e50-083f-e7e2-1aab092109b2" path="../content/ICD10-fr.zim" last="1453544603" indexPath="../index/ICD10-fr.zim.idx" indexType="xapian" title="ICD-10" description="Classification statistique internationale des maladies et des problème de santé connexes" language="fra" creator="Organisation Mondiale de la Santé" publisher="Kiwix" favicon="iVBORw0KG5CYII=" faviconMimeType="image/png" date="2012-01-09" url="http://download.kiwix.org/zim/other/icd10_fr_all_2012-01.zim.meta4" articleCount="281" mediaCount="1" size="409" />
    <book id="63d43686-53a9-3306-05d1-44e22d43b400" path="../content/wiktionary_fr_all_2015-11.zim" last="1453544629" indexPath="../index/wiktionary_fr_all_2015-11.zim.idx" indexType="xapian" title="Wiktionnaire" description="Définition, traduction, prononciation, anagramme et synonyme sur le dictionnaire libre Wiktionnaire." language="fra" creator="Wiktionary" publisher="Kiwix" favicon="iVBORw0KGRAIFnE" faviconMimeType="image/png" date="2015-11-19" url="http://download.kiwix.org/zim/wiktionary/wiktionary_fr_all_2015-11.zim.meta4" articleCount="2862613" mediaCount="31565" size="782951" />
</library>
```
# La BDD d’anagrime, issue du wikitionnaire

Posté par psychoslave__ (site web personnel) le 19 janvier 2016 à 21:14. Évalué à 2.

https://tools.wmflabs.org/anagrimes/index.php

Et sinon il faut demander sur la wikidémie. On ne mange les nouveaux que lorsqu’on a vraiment très faim.
# Aard

Posté par benja le 19 janvier 2016 à 23:55. Évalué à 1. Dernière modification le 19 janvier 2016 à 23:58.

http://aarddict.org/
Permet d'indexer et d'utiliser wiktionary off-line.
Je ne saurai en dire plus quand à la hackabilité de le leur bibiothèques python ou simplement de la réutilisation de leur fichier d'indexation, simplement que leur visionneuse marche toujours très bien chez moi et que la procédure d'indexation a duré une petite nuit sur un portable plus tout jeune (avec les version de septembre 2014, donc v1 et format aard cf. http://aarddict.org/1/aardtools/doc/aardtools.html ).

Apparemment maintenant, ils utilisent un autre format (slob) et ils fournissent des dico préindexés.

Slob format design is influenced by Aard Dictionary’s aard and ZIM file formats. Similar to Aard Dictionary, it allows to perform non-exact lookups based on UCA’s notion of collation strength. Similar to ZIM, it groups and compresses multiple content items to achieve high compression ratio and can combine several physical files into one logical container. Both aard and ZIM contain vestigial elements of predecessor formats as well as elements specific to a particular use case (such as implementing offline Wikipedia content access). Slob aims to provide a minimal framework to allow building such applications while remaining a simple, generic, read-only data store.

(* https://github.com/itkach/slob )

Bref, je ne saurais que te conseiller d'aller aussi étudier cette solution et de revenir ensuite partager avec nous les résultats de tes investigations ;-)

# Dicolecte

Posté par chimrod (site web personnel) le 20 janvier 2016 à 10:03. Évalué à 3.

En suivant de la piste du dictionnaire firefox, je suis tombé sur dicolecte qui propose un dictionnaire hunspell pour le français (utilisé par ff, libreoffice) etc.

L'API d'hunspell étant vraiment très simple, et récupérer les données sur un mot peut se faire en quelques lignes :

    const char* word = "voiture";

    Hunhandle* dic = Hunspell_create("fr.aff", "fr.dic");

    printf("%s found: %d\n", word, Hunspell_spell(dic, word));
    printf("encoding: %s\n\n", Hunspell_get_dic_encoding(dic));
    int i;

    char **stypes;

    int type_size = Hunspell_analyze(dic, &stypes, word);
    printf("types count: %d\n", type_size);
    for (i = 0; i < type_size; i++ ) {
        printf("Type: #%d : %s\n", i, stypes[i]);
    }
    Hunspell_destroy(dic);

et la sortie :

voiture found: 1
encoding: UTF-8

types count: 1
Type: #0 :  st:voiture po:nom is:fem is:sg

J'ai donc trouvé une base de données et le moyen de récupérer la nature d'un mot, son genre, son nombre. C'était exactement ce que je voulais. Inutile de réinventer la roue ! Je vais donc partir dans cette direction.

# OmegaWiki

Posté par ComputingFroggy (site web personnel) le 20 janvier 2016 à 15:46. Évalué à 1.

Salut,

Je suis épaté que personne n'ai cité OmegaWiki qui pourtant fournit une fonction intéressante (extrait de Wikipedia English) :
Unlike the original Wiktionaries, OmegaWiki will allow for the download of data, particularly for reuse with other software. For example, software Computer assisted translation (CAT), dictionary software on a local computer and spellcheckers.

Je suppose que c'est parce c'est un projet assez méconnu ! J'y suis tombé dessus par hasard, ce week-end en cherchant un dictionnaire (pour un smartphone Android) : un des dico indiquait qu'il utilisait les données de OmegaWiki.
Je n'en sais pas plus que la page Wikipedia English et la home page d'OmegaWiki.

Bonne continuation,
L@u
# liste de mot

Posté par Rozé Étienne le 21 janvier 2016 à 09:43. Évalué à 1.

J'en profite pour poser ici une question à laquelle je n'avais pas trouvé de réponse il y a quelque temps. Est-ce qu'il existe une méthode pour récupérer la liste des entrée de wikipedia (ou d'une sous-partie) ?

Bonne journée !
- [^] # Re: liste de mot
  
  Posté par Jiehong (site web personnel) le 27 janvier 2016 à 23:20. Évalué à 3.
  
  Oui, il est possible de télécharger un dump des données de Wikipédia dans la langue voulue, puis d'en extraire ce que tu souhaites ensuite : https://dumps.wikimedia.org/backup-index.html
  
  Les données sont découpées, et tu peux trouver la liste des entrées de la version Française directement: https://dumps.wikimedia.org/frwiki/20160111/frwiki-20160111-all-titles.gz

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.