Suivi — Recherche Améliorations de la recherche

#811 Posté par  (site web personnel) . État de l’entrée : corrigée. Assigné à Bruno Michel.
Étiquettes : aucune
8
1
fév.
2012

Bonjour,

Je ne sais pas vraiment si il est possible d'améliorer la pertinence des résultats (en modifiant les paramètres de Lucene ou autre) mais je constate une dégradation par rapport aux résultats de Google.

Recherche "Linux 3.2" avec Google :

google

Même recherche sur le moteur du site :

site

Pareil avec une recherche sur "Capsicum" avec Google :

google

Et le moteur du site :

site

D'autre part il faudrait sans doute proposer des filtres/tri sur la date afin de ne remonter des résultats que sur une certaine période ou bien en privilégiant les résultats récents.

  • # Priorisation des titres ?

    Posté par  (site web personnel) . Évalué à 1 (+0/-0).

    Les deux exemples donnés montrent bien l'importance du titre par rapport au contenu de la dépêche.

  • # Sioux

    Posté par  . Évalué à 3 (+0/-0).

    C'est juste un peu plus sioux :

    title:"linux 3.2"
    
    

    https://linuxfr.org/recherche?utf8=%E2%9C%93&q=title%3A%22linux+3.2%22

    Google doit être plus proche de ça :

    title:"linux 3.2"^2 OR linux 3.2
    
    

    https://linuxfr.org/recherche?utf8=%E2%9C%93&q=title%3A%22linux+3.2%22^2+OR+linux+3.2

    Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)

    • [^] # Re: Sioux

      Posté par  (site web personnel, Mastodon) . Évalué à 1 (+0/-0).

      Justement ne serait-il pas possible de faire comme Google? Le framework de recherche que vous utilisez a probablement un système de poids afin de donner un poids différent aux différents éléments d'un article (plus de poids pour les tags, puis le titre, la section joue sûrement aussi, puis l'article en lui-même, et enfin les commentaires). Le tout est ensuite de jouer sur ces poids pour affiner progressivement (au moins déjà à la loupe avec des tests à la main, éventuellement plus tard en automatique si un système d'apprentissage peut être mis en place).

      Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]

      • [^] # Re: Sioux

        Posté par  . Évalué à 2 (+0/-0).

        Je ne suis pas Bruno Michel ^^

        Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)

      • [^] # Re: Sioux

        Posté par  (site web personnel) . Évalué à 2 (+0/-0).

        Le framework de recherche que vous utilisez a probablement un système de poids afin de donner un poids différent aux différents éléments d'un article [...] le tout est ensuite de jouer sur ces poids pour affiner progressivement

        Oui, il y a déjà des poids par éléments, mais il reste du boulot pour les régler.

  • # Tri par date ?

    Posté par  . Évalué à 4 (+0/-0).

    Pour ma part, et comme le dit patrick_g : "il faudrait sans doute proposer des filtres/tri sur la date afin de ne remonter des résultats que sur une certaine période ou bien en privilégiant les résultats récents."
    Sans cela, que ce soit Google Search ou Lucene, je trouve que la recherche n'est pas exploitable.

    De plus, si en étant dans une section (par exemple https://linuxfr.org/sections/python ), si on fait une recherche sur cette page, il serait intéressant de restreindre les résultats à cette section.

  • # En cours

    Posté par  (site web personnel) . Évalué à 3 (+0/-0).

    J'ai essayé d'ajuster les paramètres d'indexation (boost dans la terminologie d'Elastic Search). Ça l'air d'être un peu mieux, mais pas encore tout à fait ça.

    Cf https://github.com/nono/linuxfr.org/commit/8f6054d4958a9b2aa2393e6797960561ea197ac5

    • [^] # Re: En cours

      Posté par  (site web personnel) . Évalué à 2 (+0/-0).

      En fait c'est en pratique impossible de régler les paramètres parfaitement, sur les gros corpus notamment.

      Ce que vous pouvez faire, c'est installer Seeks et profiter de l'apprentissage automatique qui est fait des clics utilsateurs. Ca permet au ranking de progresser au fil de l'usage. Ces techniques sont utilisées par les principaux grands moteurs publics (aka Google et Bing).

      On peut vous aider si ca vous intéresse.

      • [^] # Re: En cours

        Posté par  (site web personnel) . Évalué à 2 (+0/-0).

        Merci pour la proposition. Cependant, je n'ai pas beaucoup de temps à consacrer à LinuxFr.org en ce moment et, comme le moteur de recherche ne marche pas si mal, ce temps là ne sera pas passé sur cette partie.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.