Journal wanted : indexation !

Posté par  .
Étiquettes : aucune
0
28
oct.
2003
Mon petit journal,

Je cherche une façon en local d'indexer des documents word et html afin de permettre à des utilisateurs via une interface html de retrouver tel ou tel documents via une requete style la page de google (affiche les premiere ligne du doc).

J'ai penser à htdig mais sa conf n'ai pas assez permissive et adaptée à ce que je recherche....

Qq'un a des idées pour réaliser un tel traitement facilement (moteur et intégration web) tout cela dans le libre bien entendu !

Merci mon journal !!!!
  • # Re: wanted : indexation !

    Posté par  (site web personnel) . Évalué à 1.

    Il me semble que Zope + CPS est capable de réaliser cela par défaut. CPS convertit les documents word en html grace a un outil externe appele WvWare. Pour plus de détails :

    http://www.nuxeo.org/cps(...)
    http://www.cps-project.org/(...)
    http://www.nuxeo.org/cps/cps_install(...) (Installation des modules de conversion)
    • [^] # Re: wanted : indexation !

      Posté par  . Évalué à 1.

      Sans aller jusqu'à CPS, il est possible de reprendre le composant Zope utile à cette tache: NuxDocument. Il gère, à l'aide d'outils standards de Zope, l'indexation de fichiers MSOffice, PDF, HTML et sûrement d'autres formats puisque ça se gère par plug-ins (ça fait un moment que je ne m'y suis pas penché).

      Ensuite, il faut un peu de développement mais on se retrouve alors avec un outils bien plus simple et léger qu'un CPS ou autre Plone/CMF. Par ce que, si c'est pour entendre ensuite que Zope c'est lourd, désolé mais ce sont surtout les solutions développées sur Zope qui ont tendance à devenir lourdes.
  • # Re: wanted : indexation !

    Posté par  . Évalué à 1.

    Il y'a bien sur la solution de la conversion de ces documents doc (évoqué dans le commentaire précédent).

    J'ose espérer que tu ne viens pas sur ce site pour demander de l'aide pour diffuser des documents avec ce format...

    ---
    Vous m'avez envoyé un attachement au format Microsoft Word, format
    propriétaire et tenu secret, ce qui fait que je ne peux le lire. Si
    vous me l'envoyez au format texte brut, HTML ou PDF, je serai alors en
    mesure d'en prendre connaissance.

    La diffusion de documents au format Word est néfaste pour vous et pour
    les autres. Vous ne pouvez être sûr de la manière dont ils seront
    affichés si quelqu'un les regarde avec une version différente de
    Microsoft Word; ils peuvent même ne pas fonctionner du tout.

    Recevoir des fichiers joints au format Word vous est néfaste :
    ils peuvent servir de vecteurs à la propagation de virus (voir
    http://www.symantec.com/avcenter/venc/data/acro.html(...)).

    Envoyer des documents Word vous est néfaste, parce que ces documents
    incorporent normalement des informations cachées sur leur auteur,
    permettant à ceux qui le savent de se pencher dans les activés de
    ceci-ci (peut-être les vôtres). Le texte que vous croyez avoir effacé
    pouvant être encore présent, pour votre plus grand embarras. Voir
    http://www.microsystems.com/Shares_Well.htm(...) pour plus d'information.

    Mais par dessus tout, envoyer aux gens des documents Microsoft Word
    les force à utiliser des logiciels de cette entreprise et leur interdit
    tout autre choix.

    Il est aisé de convertir le fichier en HTML depuis Microsoft Word :
    Ouvrez le document, cliquez sur 'Fichier', puis 'Enregistrer
    sous', et dans la boîte de dialogue 'Enregistrer au format' au
    bas de la boîte, choisissez 'Document HTML' ou 'Page Web'. Puis
    choisissez 'Enregistrer'.
    Vous pouvez alors attacher le nouveau document HTML à la place du
    document Microsoft Word.

    Convertir en texte brut se fait quasiment de la même manière : au lieu
    de 'Document HTML', choisissez 'Texte seulement' dans
    'Enregistrer au format'.
    Vous pouvez alors attacher le nouveau texte à la place du
    document Microsoft Word.

    Un programme de conversion au format pdf peut aussi être disponible sur votre o
    rdinateur :
    Sélectionnez 'Fichier' puis 'Imprimer'. Parcourez les différentes
    imprimantes disponibles et sélectionnez le 'Convertisseur
    pdf'. Cliquez sur le bouton 'Imprimer' et, quand la boîte de
    dialogue vous le demande, entrez un nom pour le ficher pdf.
    Vous pouvez alors attacher le nouveau document PDF à la place du
    document Microsoft Word.

    D'avance merci,
    • [^] # Re: wanted : indexation !

      Posté par  . Évalué à 1.

      Notre base de doc word est énorme et est inchangeable (désolé, je sais c mal mais c pas moi qui ait choisi !) .... Cependant, ce que je pensais faire était d'extraire les liens vers ces documents plus un bref descriptif toutes les nuits en faisant une recherche sur la partition montée comportant ces documents, puis indexer ces documents après une conversion c pas grave, pour pouvoir réaliser une recherche par mot clé à l'intérieur même des docs (en gros les transformer en fichier texte ou html)....
      Ensuite de même indexer nos page tml, et hop réalsier un petit site php avec une option de recherche sur les indexation, et ouvrir des résultats avec des liens qui ouvrent les pages html cherchées ou les doc word voulus....

      Cps m a l air interessant mais semble faire trop de trucs par rapport à ce que je veux et donc semble être un peu lourd ! Et pis assez compliqué !

      Je cherche à installer cela sur une debian.....

      Merci mon journal si tu as d autres idées !
      • [^] # Re: wanted : indexation !

        Posté par  . Évalué à 3.

        sinon tu peux utiliser Zope + le produit NuxDocument
        • [^] # Re: wanted : indexation !

          Posté par  . Évalué à 1.

          Je vote pour... c'est d'ailleurs pour ce genre de tâche que j'ai été amené à utiliser NuxDocument. Il m'avait alors été possible d'étendre les objets NuxDocument pour leur ajouter un commentaire (lui aussi indexé).

          Le gros pb, c'est que les NuxDocument sont stockés dans la base de données de Zope (la ZODB) alors que là, le fichiers sont déjà sur le un disque dur. Ça n'est pas très compliqué de faire des importations de masse, mais la ZODB n'est vraiment pas faite pour contenir beaucoup de gros objets (un fichier Word, c'est rarement léger) donc il serait sûrement nécessaire de faire un petit développement pour obtenir un NuxDocument modifié se chargeant d'envoyer les informations d'indexation au moteur de Zope et gardant (en plus du commentaire) un URL vers le fichier au lieu du fichier lui même... si ça se trouve, ça a déjà été développé vu que ça me paraît être une demande assez classique!
      • [^] # Commentaire supprimé

        Posté par  . Évalué à 1.

        Ce commentaire a été supprimé par l’équipe de modération.

  • # Re: wanted : indexation !

    Posté par  (site web personnel) . Évalué à 1.

    swish-e
    A travailler, mais ca devrait assez bien répondre comme "moteur de base d'indexation et de recherche" ...
  • # Re: wanted : indexation !

    Posté par  . Évalué à 1.

    mnogosearch ?

    R.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.