Faire un don ! | | style | statistiques | contactez-nous | plan | lettre d'information

Retourner aux forums || Retourner au forum general.general

general.general : Convertir les dictionnaires OOo vers dict

Posté par zgnouf () le 24 février 2005
Bonjour à tous,

Nous avons un petit serveur web avec dictd (http://www.dict.org(...)) installé dessus. Cependant, il existe très peu (voire pas) de dictionnaires français qui sont à ce format.
J'aimerais convertir le thesaurus d'OOo au format dict pour pouvoir le proposer en ligne mais je suis un peu coincé pour procéder à cette conversion...
Est-ce que quelqu'un aurait une idée sur la façon de faire? Je vois que cela se fait a priori avec dictfmt mais la page de man est assez absconse...
Merci d'avance si vous savez/voyez comment faire

> Lire le message (4 commentaires, moyenne: 1,5).  

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

PS

Posté par zgnouf () le 24/02/2005 à 18:55. (lien). Évalué à 2.

PS : est-ce même techniquement faisable???

  • [^]Re: PS

    Posté par ham () le 25/02/2005 à 11:20. (lien). Évalué à 1.

    oui, j'ai un peut googlisé et donc:

    le format de openoffice: voir
    http://cvs.sourceforge.net/viewcvs.py/openthesaurus/openthesaurus/w(...)

    le script Parse_Thes.awk donne des indices sur le format de fichier .idx et .dat:
    fichier .dat : suite de nombre en big endian sur 16bit,
    1er nombre : Nb synomyme
    ensuite : id synonyme+
    id synonyme : index du mot dans le .idx

    fichier .idx: nom, offset en byte dans le fichier .dat

    de la on peut faire un prog en (C,CAML, java, whatever) ou touver le bout de code OO qui fait ca (en utilisant seulement les site web c'est pas top, il faudrait prendre le CVS) en faisant un grep sur les sources et trouver le bout de code qui ouvre ca, pour le sortir en format "simple"

    a priori il y a une "source" pour ce thesaurus, dans un format plus facile a traiter.

    néanmoins le thesaurus n'est pas vraiement un dico, c'est just un dictionnaire de synonyme.

    • [^]Re: PS

      Posté par ham () le 25/02/2005 à 23:37. (lien). Évalué à 1.

      j'ai continué a chercher et tout les dictionnaire openoffice sont des pour la correction orthographique, la césure ou les synonyme.

      C'est faisable syntaxiquement de traduire les format de fichiers, mais sémantiquement c'est pas top.d

      Ou sinon il y a d'autre dictionnaire openoffice que ce cité ci-dessus?? des sources??

    • [^]Re: PS

      Posté par zgnouf () le 27/02/2005 à 19:04. (lien). Évalué à 2.

      Le problème c'est que caml etc., c'est du chinois pour moi autant que la syntaxe de dict_fmt mais ça serait très sympa de pouvoir offrir un tel thesaurus sur les serveurs dict...

Revenir en haut de page || Retourner aux forums || Retourner au forum general.general