Forum Linux.debian/ubuntu toujours avec mnogosearch

Posté par  .
Étiquettes : aucune
0
14
avr.
2005
j'ai installé mnogosearch sur une machine équipée de debian/alternc/spip-agora!
le script incexer.conf parcourt bien mon arborescence (le dossier IMG ont stockés les téléchargement et donc les fichiers word mais il ne parvient pas a parser a l'intérieur du .doc
je crois que c lié a apache mais j'en suis pas trés sur (noob power)
donc si une bonne venait a trouver la solution et a me la poster ...
merci d'avance!


ca15:~# /***/******/mnogosearch/sbin/indexer /etc/indexer.conf
indexer[32543]: indexer from mnogosearch-3.2.32-mysql started with '/etc/indexer.conf'
indexer[32546]: [32546]{01} URL: http://www.ca15.org/(...)
indexer[32546]: [32546]{01} ROBOTS: http://www.ca15.org/robots.txt(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/breve.php3?id_breve=1(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/icones/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/xls/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/rubrique.php3?id_rubrique=1(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/jpg/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/personnalisation.php3(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/gif/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/article.php3?id_article=1(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/sommaire.php3(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/plan.php3(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/sxw/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/resume.php3(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/png/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/contact.php3(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/doc/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/html/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/bmp/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/ecrire/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/zip/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/icones_barre/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/pdf/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/aide.php3(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/backend.php3(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/binettes/(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/spip_login.php3?var_url=ecrire/./(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/backend.php3?id_rubrique=1(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/forum.php3(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/spip_pass.php3?oubli_pass=oui(...)
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/doc/agenda.doc(...)
indexer[32546]: [32546]{01} Unsupported Content-Type 'application/msword'
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/doc/titi.doc(...)
indexer[32546]: [32546]{01} Unsupported Content-Type 'application/msword'
indexer[32546]: [32546]{01} URL: http://www.ca15.org/IMG/pdf/titi.pdf(...)
indexer[32546]: [32546]{01} Unsupported Content-Type 'application/pdf'
indexer[32546]: [32546]{01} URL: http://www.ca15.org/login.php3(...)
  • # petits renseignements en complément

    Posté par  . Évalué à 1.

    j'ai installé un fichier txt dans mon arborescence et mnogosearch le parcourt correctement. j'ai donc un pb de drivers pour les fichiers .doc et .pdf . par contre j'ai regardé dans le cache de apt et je ne trouve le bon package pour permettre à mnogosearch de faire correctement son travail.
    PS : dans le post précédent ct bonne âme* (trop distrait lol)
    donc j'espere toujours une réponse svp!!!
  • # j'ai trouvé!

    Posté par  . Évalué à 1.

    une fois encore je laisse la solution si quelqu'un se trouve dans la mème situation que moi.
    Le problème d’indexation des fichiers doc pdf …. Avait une double origine :
    - le fichier de configuration
    - Deux librairies qui manquaient azfin de parser les fichiers
    En parcourant le fichier indexer .conf je me suis rendu compte qu’il fallait supprimer les extension . pdf et .doc dans une série de lignes de ce style :
    Disallow *.tex *.com …..
    En effet ces lignes permettent d’exclure certaines extensions connues. De plus il a fallu modifier deux lignes mises en commentaires qui permettaient de faire appel aux types MIME correspondant au type de fichier parcouru :

    Mime application/pdf text/plain “pdftotext $1 –“
    Mime application/msword “text/plain ;charset=utf-8“ “catdoc –a –duft-8 $1“

    Après avoir fait ces suppressions j’ai eu un message d’erreur différent qui était du à l’absence de packages nécessaires pour parcourir les fichiers :
    - catdoc
    - xpdf-utils
    c fichiers sont disponible à l'aide de la commande (trés pratique il faut le dire)apt-get.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.