Forum général.général Convertir les dictionnaires OOo vers dict

Posté par  .
Étiquettes : aucune
0
24
fév.
2005
Bonjour à tous,

Nous avons un petit serveur web avec dictd (http://www.dict.org(...)) installé dessus. Cependant, il existe très peu (voire pas) de dictionnaires français qui sont à ce format.
J'aimerais convertir le thesaurus d'OOo au format dict pour pouvoir le proposer en ligne mais je suis un peu coincé pour procéder à cette conversion...
Est-ce que quelqu'un aurait une idée sur la façon de faire? Je vois que cela se fait a priori avec dictfmt mais la page de man est assez absconse...
Merci d'avance si vous savez/voyez comment faire
  • # PS

    Posté par  . Évalué à 2.

    PS : est-ce même techniquement faisable???
    • [^] # Re: PS

      Posté par  . Évalué à 1.

      oui, j'ai un peut googlisé et donc:

      le format de openoffice: voir
      http://cvs.sourceforge.net/viewcvs.py/openthesaurus/openthesaurus/w(...)

      le script Parse_Thes.awk donne des indices sur le format de fichier .idx et .dat:
      fichier .dat : suite de nombre en big endian sur 16bit,
      1er nombre : Nb synomyme
      ensuite : id synonyme+
      id synonyme : index du mot dans le .idx

      fichier .idx: nom, offset en byte dans le fichier .dat

      de la on peut faire un prog en (C,CAML, java, whatever) ou touver le bout de code OO qui fait ca (en utilisant seulement les site web c'est pas top, il faudrait prendre le CVS) en faisant un grep sur les sources et trouver le bout de code qui ouvre ca, pour le sortir en format "simple"

      a priori il y a une "source" pour ce thesaurus, dans un format plus facile a traiter.

      néanmoins le thesaurus n'est pas vraiement un dico, c'est just un dictionnaire de synonyme.
      • [^] # Re: PS

        Posté par  . Évalué à 1.

        j'ai continué a chercher et tout les dictionnaire openoffice sont des pour la correction orthographique, la césure ou les synonyme.

        C'est faisable syntaxiquement de traduire les format de fichiers, mais sémantiquement c'est pas top.d

        Ou sinon il y a d'autre dictionnaire openoffice que ce cité ci-dessus?? des sources??
      • [^] # Re: PS

        Posté par  . Évalué à 2.

        Le problème c'est que caml etc., c'est du chinois pour moi autant que la syntaxe de dict_fmt mais ça serait très sympa de pouvoir offrir un tel thesaurus sur les serveurs dict...

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.