Solr 1.4 est de sortie

Posté par (page perso) . Modéré par tuiu pol.
12
11
nov.
2009
Java
Solr est un moteur de recherche libre, écrit en java, et faisant partie du projet Apache. Après plus d'un an depuis la dernière version stable, Solr 1.4 est finalement disponible depuis hier en téléchargement.

Les améliorations sont nombreuses, tant au niveau de l'optimisation des performances que du point de vue fonctionnel. Au menu de cette version toute fraîche, on trouvera entre autre :
  • Meilleure intégration aux SGBD grâce au gestionnaire d'import de données ;

  • Possibilités d'indexation de documents externes (Word, OOo, PDF, HTML, etc.) grâce au projet Apache Tika ;

  • Clustering dynamique de résultats de recherche avec Carrot2 ;

  • Une tonne d'améliorations, de nouveaux greffons et de corrections de bugs ;

La liste des améliorations est vraiment très importante. Les intéressés auront tout intérêt à consulter le CHANGELOG complet.

Pour rappel, Lucene est une bibliothèque de recherche full-text écrite en Java et gérée par le projet Apache. Solr utilise Lucene pour proposer les fonctionnalités d'un moteur de recherche de qualité professionnelle (recherche à facette, recherches approximatives, requêtes booléennes, etc.).

La communication avec Solr se fait via appels de web-services, et des bibliothèques existent déjà dans la majorité des langages les plus utilisés. Il est ainsi parfaitement possible d'utiliser Solr pour gérer le moteur de recherche d'un site en PHP.
  • # Solr vs Zend_Lucene

    Posté par . Évalué à 3.

    Merci pour la news.

    Je suis justement en train de définir un moteur de recherche pour un projet web basé sur Zend, et je me pose la question d'utiliser Solr ou le composant Lucene de Zend. Existe-t'il des benchmarks de la dernière version de Solr vs Zend_Lucene?
    • [^] # Re: Solr vs Zend_Lucene

      Posté par (page perso) . Évalué à 2.

      Salut,

      D'après mon expérience, les performances avec Zend Lucene ne sont pas au top.

      Après, ça dépend de beaucoup de paramètres.

      Des infos utiles par ici :
      http://groups.google.com/group/symfony-users/browse_thread/t(...)
      • [^] # Re: Solr vs Zend_Lucene

        Posté par . Évalué à 2.

        Merci!

        J'avais vu la page de ton blog sur les différents moteurs, mais pas sur l'implémentation sur Symphony qui est très intéressante ;-)

        Vu que c'est pour du gros catalogue, je vais limiter les risques et me tourner vers SolR.

        Dommage que Zend_Lucene ne soit pas plus puissant, j'aurais bien aimé profiter de l'implémentation dans Zend pour faire un module standard pour magento.
    • [^] # Re: Solr vs Zend_Lucene

      Posté par (page perso) . Évalué à 4.

      Bonjour,

      Ca n'a pas grand chose à voir en fait.

      Tu peux essayer de comparer Zend_Lucene et Lucene (et le résultat sera en faveur de Lucene) mais Solr est bien plus haut niveau (par opposition à bas niveau).

      Il te fournit tout un tas de fonctionnalités par dessus Lucene :
      - la capacité à définir un schéma avec des types (et tu peux cabler automatiquement tes types en fonction d'un suffixe sur le nom d'un champ) pour lesquels tu peux définir des filtres (suppression d'accents, passage en minuscules, tokenisations diverses) - c'est hyper pratique à l'usage ;
      - la capacité à faire du faceting ;
      - un parser de requêtes (DisMax) qui te permet d'envoyer des requêtes brutes que Solr traite en gérant lui-même les problématiques d'échappement ;
      - la réplication d'index ;
      - le fait de pouvoir envoyer tes requêtes via HTTP depuis n'importe quelle application (pratique pour centraliser l'indexation et partager la recherche) ;
      - ...

      Le tout enveloppé dans une application super bien packagée, bien documentée et d'une stabilité exemplaire (ça tourne depuis bientôt 2 ans sur un site à forte audience chez nous et on n'a *aucun* souci). On a maintenant plusieurs instances pour plusieurs clients et c'est partout du même niveau de stabilité.

      Si je résume, Lucene est un composant permettant de construire des moteurs de recherche, Solr est une application de recherche.

      Ca vaut vraiment plus que le coup d'oeil quand on a besoin de fonctionnalités de recherche. C'est clairement ce qu'on a de plus avancé en libre à l'heure actuelle et c'est vraiment un bonheur à utiliser, tellement c'est simple et bien documenté.

      --
      Guillaume
      • [^] # Re: Solr vs Zend_Lucene

        Posté par . Évalué à 2.

        Je ne suis pas trop rentrée de le détail pour le moment, mais j'avais juste vu que Zend_Lucene savait faire ce que je lui demandais.

        Son avantage pour moi est de pouvoir faire un module générique pour Magento qui écrasera la recherche par défaut. Mais ça n'a un intérêt que si il tient la charge...

        Donc je vais me pencher sérieusement sur Solr.

        Merci pour vos retours
        • [^] # Re: Solr vs Zend_Lucene

          Posté par (page perso) . Évalué à 2.

          Le gros problème de Zend_Lucene est sa lenteur. Dès qu'il commence à y avoir un peu de contenu, il ralenti très rapidement.
  • # Petite question

    Posté par (page perso) . Évalué à 3.

    Avec ce genres de services d'indexations, es-ce que vous stockez l'info dans le solr ou vous l'indexez juste à chaque ajout / modif ? et gardez les 2 en parallèle ?

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.