Beagle 0.2.8 : prise en charge de Thunderbird

Posté par dco le 24 août 2006 à 17:46. Modéré par Nÿco.

Étiquettes :

août

2006

Beagle est un outil d'indexation et de recherche de données, dans la philosophie de Google Desktop sous Windows, Spotlight sous Max OS X ou Kat sous KDE.
Attendu depuis longtemps, la prise en charge des données de Thunderbird (messages, news, carnet d'adresses, flux RSS) est intégrée dans la version 0.2.8 de Beagle. Si Evolution était intégré dès le départ, puis Kmail dans la version 0.2.1, la prise en compte de Thunderbird faisait encore défaut.
Cette version apporte une autre nouveauté intéressante, à savoir les "wildcards" (maiso* par exemple) dans les requêtes.

Parmi les nouveautés qui devraient arriver bientôt, voici les projets "Summer of Code" de Beagle :

Recherches sur des machines distantes avec partage des index
Redémarrage du projet Dashboard qui avait donné naissance à Beagle
Meilleure gestion des méta-données et de leur utilisation dans la phase de recherche
Profiling pour l'optimisation mémoire du serveur

Aller plus loin

Annonce beagle 0.2.8 (25 clics)
DLFP : Sortie de Beagle 0.2 (11 clics)
Beagle (14 clics)
Thunderbird (10 clics)

# Des retours similaires ?

Posté par Nikoo le 24 août 2006 à 19:50. Évalué à 2.

Bonjour,

perso, je trouve que beagle est pas mal, mais je ne peux toujours pas l'utiliser pour remplacer Spotlight sous MacOSX, ou Copernic Desktop Search (tiens, il était pas cité celui-ci, et pourtant, il est de loin bien plus efficace que Google Desktop).

En effet, pour une raison qui m'échappe, il n'indexe pas TOUS les documents que je lui ai demandé, notamment les pdf.

Sachant que je l'utilise seulement pour scanner un unique dossier contenant bcp bcp bcp de documents qui sont eux même parfois dans des sous-dossiers, il est bizarre que sur une requette où Copernic Desktop Search me trouve tout ce qui correspond à la requete (107 fichiers dont 66 pdf ), il n'en trouve que quelques uns (56 dont 10 pdf).

D'autres retours similaires ?
Des solutions ?
- [^] # Re: Des retours similaires ?
  
  Posté par dco le 25 août 2006 à 08:40. Évalué à 2.
  
  J'ai deja eu ce petit prblm abvec beagle et c'est princpalement dû au fait que les PDF sont "mal encodés" (mal au sens où justement beagle n'arrive pas à indexer son contnu ;)).
  
  Des pdf avec des résultats au "pdftotext" foireux par exemple, ne présage rien de bon (même si l'interpreteur de beagle est un peu plus intelligent que ça;)).
  - [^] # Re: Des retours similaires ?
    
    Posté par Nikoo le 25 août 2006 à 08:48. Évalué à 1.
    
    Et à quoi penses-tu que le mauvais encodage en pdf soit dû ?
    Parce que ça fait quand même un max de pdf...
    - [^] # Re: Des retours similaires ?
      
      Posté par dco le 25 août 2006 à 09:35. Évalué à 3.
      
      A une certaine époque, je faisais du latex-> dvi-> ps -> pdf. Dans cette boucle je ne connaissais pas les options au "dvips" pour qu'il soit respectueux avec le PDF (maintenant : dvips -P pdf -G0 toto.dvi).
      
      A la fin, le pdf pouvais ne pas etre très joli...
      
      Je t'avouerai que maintenant quasi tous les PDF que je trouve (ou génére) sont "lisibles".
      
      Ton probleme ne vient peut-être pas de là non plus... Peux-tu "tracer" l'indexation de copernic sur un des PDF foireux (possible avec beagle ;)) ?
    - [^] # Re: Des retours similaires ?
      
      Posté par boubou le 25 août 2006 à 09:59. Évalué à 1.
      
      Certains pdf contiennent en fait des images (par exemple issues d'un scan). Acrobat reader contient un OCR qui peut récupérer plus ou moins le texte. Ce n'est pas le cas des outils libres pour l'instant, donc on ne peut pas indexer en full text n'importe quel pdf (ce qui est bien chiant, nous sommes d'accord).
      - [^] # Re: Des retours similaires ?
        
        Posté par rahan le 25 août 2006 à 12:03. Évalué à 7.
        
        Tu confonds le lecteur et le producteur. L'OCR est présent dans le programme "fabriquant" le PDF pas celui le lisant. Si l'OCR a été effectué à la création du PDF, aussi bien xpdf, evince ou Acrobat Reader pourront faire une recherche textuelle. Par contre si le PDF ne contient que les images scannées, aucun visualiseur de PDF ne fera d'OCR, y compris Acrobat Reader.
        
        Il n'en reste pas moins que je ne connais aucun programme libre permmettant d'inclure le résultat d'un OCR dans un PDF en mode image.
        
        [^] # Re: Des retours similaires ?
        
        Posté par Nikoo le 25 août 2006 à 14:09. Évalué à 1.
        
        Y-a-t'il alors une explication pour le fait que beagle ne trouve pas bien les pdf par rapport à Copernic Desktop Search ou Spotlight ?
        
        [^] # Re: Des retours similaires ?
        
        Posté par boubou le 25 août 2006 à 14:29. Évalué à 3.
        
        Au temps pour moi, j'ai beau chercher dans mes exemples de pdf merdiques, soit ils sont merdiques pour acrobat et pour kpdf (par exemple), soit ils ne le sont ni pour l'un ni pour l'autre...
# petite correction ...

Posté par Fathi BOUDRA le 24 août 2006 à 20:54. Évalué à 9.

"ou Kat sous KDE"

en fait, kat n'est plus... le re-nouveau vient de strigi
- [^] # Re: petite correction ...
  
  Posté par dco le 25 août 2006 à 08:35. Évalué à 5.
  
  Très juste.. La page de Strigi : http://strigi.sourceforge.net/index.php/Main_Page
  
  De la page principale de Strigi :
  "As Kat development seems to have stopped, and Tenor doesn't have any code in the open, it seems like Strigi is a likely candidate to provide KDE 4 with search functionality. The functionality Tenor was supposed to offer will possibly be included in Strigi. The same goes for Kat, some of its plugins are being ported by their original author to Strigi."
# Hum

Posté par Philippe F (site web personnel) le 25 août 2006 à 09:49. Évalué à 7.

La news, c'est pour dire que beagle est capable d'analyser les messages et les contacts de thunderbird ?

Baleze, vraiment vraiment. Les messages sont au format mbox, qui est plus que trivial a analyser (je bourre tous les messages en texte dans un fichier), surtout quand on a fait le format maildir auparavant (un message par fichier texte dans un repertoire). Et les contacts sont au format vcard (du texte encore). Donc en fait, beagle est maintenant capable d'analyser des fichiers textes. Moi, ca m'impressionne :-)

Bon, plaisanterie a part, c'est sympa de voir ce projet avancer et j'imagine qu'il y a plus que l'indexation de fichier texte dans l'integration thunderbird. Mais ca ne ressort pas trop dans la news.
- [^] # Re: Hum
  
  Posté par Quetzalcoatl le 25 août 2006 à 10:05. Évalué à -2.
  
  T'es un peu limite d'esprit toi. Il faut aussi que beagle trouve le répertoire de configuration de Thunderbird dans le home de l'utilisateur et c'est bien plus difficile :-)
  
  D'ailleurs, j'ai jamais compris pourquoi Thunderbird utilise mailbox plutôt que maildir. C'est plus long, plus lourd, ca oblige à faire des trucs pas propres (comme le compactage) et moins sécurisé à mon avis puisque les messages ne sont vraiment effacés du disque dur (mais peut-être qu'ils ont prévu ca, j'en sais rien).
  
  Pardon aux développeurs de Beagle, j'utilise ce logiciel et tout va bien. Je n'ai juste pas pu résister !
- [^] # Re: Hum
  
  Posté par dco le 25 août 2006 à 10:14. Évalué à 4.
  
  Pas bete..... Et puis c'est cool d'indexer les headers des mails ne portant pas d'info...
  
  Les difficultés étaient, entre bcp d'autres, d'associer une URI unique te stable pour chaque message permettant de faire une appel à thunderbird pour qu'il "ouvre" le message dans l'outils de recherche, de gérer les comptes IMAP et bien sûr de parser les mails html...
  
  Cette notion d'URI était prévue dans Evolution et Kmail mais pas dans thunderbird..
  - [^] # Commentaire supprimé
    
    Posté par Anonyme le 25 août 2006 à 12:37. Évalué à 2.
    
    Ce commentaire a été supprimé par l’équipe de modération.
    - [^] # Re: Et la RFC 2392 vous en faites quoi ;?)
      
      Posté par dco le 25 août 2006 à 13:17. Évalué à 2.
      
      Je ne comprend pas pourquoi n'ont ils pas utilisé le protocole mid,[...] ?
      
      puis
      TheBat! est le seul courrielleur que je connaisse qui gère cela
      
      Malheureusement, la reponse est contenue dans la question :)
      
      L'adressage des mails de thunderbird pour beagle releve plus d'un hack du format Mork des folders mails que de l'utilisation d'une fonction prévue à cette effet dans l'API de thunderbird (cf http://forums.mozillazine.org/viewtopic.php?p=1891642)
    - [^] # Re: Et la RFC 2392 vous en faites quoi ;?)
      
      Posté par Francois Revol (site web personnel) le 31 août 2006 à 13:43. Évalué à 2.
      
      Tiens je connaissais pas cette RFC.
      Va falloir que j'ajoute 2 attributs MAIL:cid MAIL:mid aux mails sous BeOS/Haiku pour les indexer... et hop une query (MAIL:cid==foo) pour trouver le bon :)
      
      (BeOS utilise un format similaire à maildir, une fichier texte par message, et une partie de l'entête est stoquée dans des attributs étendus indexés)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.