Suivi - Recherche Avoir enfin un vrai moteur de recherche

#254 Posté par (page perso) . État de l'entrée : corrigée
Tags : aucun
23
2
mar.
2011

Bonjour,

depuis des siècles Linuxfr utilise Google comme moteur de recherche. Or si ce dernier est en effet bon pour le web avec des infos éparses et dont on ne connaît le contenu, il est lamentable pour naviguer dans un site en particulier où on a plein d'autres informations que Google ne peut évidemment pas utiliser: le nombre de commentaire, la "pertinence", maintenant les tags, l'historique de l'utilisateur lui-même, etc.

En gros, ce serait bien d'avoir un bon moteur de recherche où je pourrai enfin retrouver des articles dont je me souviens. Parce que pour l'instant, si je bookmarke pas immédiatement un article (première page ou seconde) intéressant, il m'arrive très rarement d'arriver à le retrouver avec le Google intégré après quelques mois.

Des idées pour un algorithme de pertinence d'après une liste de mots clés :

  • les classiques qu'utilisent les moteurs de recherche classique (Google et autre) comme la proximité des termes recherchés dans la page, l'ordre donné, etc.
  • les trucs spécifiques au site :

    1. un article récent a plus de chance d'être pertinent qu'un ancien (cela doit avoir un poids, mais pas trop et surtout être capé, parce que de manière évidente, on recherche aussi parfois des trucs très anciens).
    2. un article avec beaucoup de commentaires a beaucoup de chances d'être plus pertinent de manière générale. Mais cela doit être capé puisque ce n'est pas forcément vrai.
    3. la "note" de l'article lui donne aussi plus de pertinence, mais cela doit aussi être capé, déjà parce que c'est une fonctionnalité récente (on ne veut pas mettre de côté les vieux articles non notés), mais aussi parce que des fois on cherche des choses qui n'ont pas beaucoup intéressé les autres.
    4. Un mot recherché trouvé dans le titre a plus de poids qu'un mot dans l'article, qui lui même en a plus qu'un mot dans les commentaires (par défaut les commentaires pourraient ne pas être cherchés, mais ça pourrait être une option avancée). Notez que les mots de l'interface n'ont aucun poids. C'est un des gros avantages par rapport à utiliser Google: on sait quelle partie des pages ont plus de poids pour une recherche! Et on sait quoi ne pas parser (l'interface), voire on peut jouer avec des options au choix de l'utilisateur.
    5. maintenant qu'on a des tags, c'est très intéressant pour une recherche car un tag a encore plus de poids que le titre même. Si un des termes se retrouve en tag, c'est une très bonne réponse. Mais ça doit tout de même être capé, encore une fois car c'est une très récente fonctionnalité (avec les années le poids des tags pourra être augmenté un peu).

Enfin il y a la personnalisation de la recherche spécifique aux utilisateurs s'ils sont connectés :

  1. Si on a laissé un commentaire sur un article, ça lui donne du poids. Ça signifie qu'on s'y est intéressé, donc il y a plus de chances que ce soit un article que l'on souhaite retrouver (le tableau de bord ne gardant en mémoire que les derniers commentaires...).
  2. A priori le site sait quelles pages on a visité et quand (puisqu'il highlighte les nouveaux commentaires). Est-ce par cookie? En db? Et si c'est en db, jusqu'à quand est-ce sauvegardé? Parce que ça aussi c'est une info pertinente. Si on a jamais ouvert un article, il y a moins de chance que ce soit un qui nous ai intéressé et donc qu'on cherche à retrouver (pas forcément ceci dit, donc ça doit être aussi capé).

Ensuite il y a peut-être d'autres critères oubliés, et il faudra sûrement jouer un peu avec les poids des divers éléments pour avoir le meilleur algorithme (soit par essai, soit carrêment par auto-apprentissage. Le site pourrait avoir un bouton "cette recherche n'était pas très pertinente" et le contraire pour nourrir par exemple un perceptron ou autre algorithme d'IA qui sait s'améliorer).

Quoiqu'il en soit, même programmée "moyennement", une recherche utilisant les spécificités du site ainsi sera toujours 10 fois mieux que Google qui est trop générique.

Genre allez chercher "linux" dans le moteur actuel. On a la page d'accueil et diverses pages qui n'ont rien à voir au lieu d'avoir des news sur le noyau (et dans ce cas, les avoir par ordre du plus récent au plus ancien est top).

Et si quelqu'un veut vraiment utiliser Google, il peut toujours avec un site:linuxfr.org en plus!

Et après ça permet aussi d'avoir des options: genre chercher que dans les news de premières pages, que dans les journaux, (ne pas) inclure les commentaires, le forum, etc. Voire: tel utilisateur a commenté et il a dit tels mots! Un classique des formulaires de recherche de forums par exemple et c'est extrèmement utile quand parfois on se rappelle d'une conversation avec quelques interlocuteurs et des thèmes cités dans la discussion.

Voilu.

  • # Journal

    Posté par (page perso) . Évalué à  1 (+0/-0) .

    Oulà, un instant j'ai cru me retrouver sur un journal.

    Pertinenté cela dit.

    Prochainement, je vous proposerais peut-être un commentaire constructif.

  • # Google nous donne des sous

    Posté par (page perso) . Évalué à  2 (+0/-0) .

    La recherche avec google est le seul endroit où nous affichons des publicités, ce qui nous permet de gagner quelques sous pour maintenir le budget de l'asso. À supposer que l'on remplace la recherche par google par une recherche interne, ces publicités disparaitraient et il nous faudrait donc trouver une autre source de revenus. Des idées ? Certains seraient prêts à faire un don pour avoir ce moteur de recherche interne ?

    • [^] # Re: Google nous donne des sous

      Posté par . Évalué à  2 (+0/-0) .

      Combien de sous cela rapporte ? C'est vraiment significatif ?

      De toute façon, il est toujours possible de proposer les 2 types de moteur de recherche.

      "La liberté de tout dire, n'a d'ennemis, que ceux qui veulent se réserver, le droit de tout faire"

      • [^] # Re: Google nous donne des sous

        Posté par (page perso) . Évalué à  2 (+0/-0) .

        Combien de sous cela rapporte ?

        En valeur absolu ce n'est pas très important…

        C'est vraiment significatif ?

        … mais pour une toute petite asso comme la nôtre (celle qui fait tourner et vivre ce site), cela permet tout juste, de boucler notre budget et couvrir nos frais de fonctionnement : remplacement d'un disque dur, frais administratifs, frais d'envoi de certains lots, cotisation à l'April, dons, etc. On puise régulièrement dans les réserves de l'asso.

        De toute façon, il est toujours possible de proposer les 2 types de moteur de recherche.

        Le sujet d'un nouveau moteur de recherche a été abordé en interne et pour le moment, il a été décidé de conserver le moteur de recherche actuel pour rester à l'équilibre. Mais promis, on va réfléchir à une solution alternative, en terme de recherche et financement ! On pourrait, par exemple, lancer une campagne de dons annuelle avec une barre de progression et tant que le montant pour boucler le budget n'est pas atteint, on laisserait le moteur de recherche actuel. Une fois le montant dépassé, on basculerait sur notre propre moteur de recherche...

        Vos idées sont les bienvenues.

        • [^] # Re: Google nous donne des sous

          Posté par . Évalué à  2 (+0/-0) .

          Il y a un autre problème à gérer : écrire un bon moteur de recherche n'est pas gagné du tout ;)

          Vous pouvez aussi laisser des pub google s'afficher pour ceux qui veulent ou encore mettre des pub et les retirer quand le budget est bouclé ?

          "La liberté de tout dire, n'a d'ennemis, que ceux qui veulent se réserver, le droit de tout faire"

          • [^] # Re: Google nous donne des sous

            Posté par (page perso) . Évalué à  2 (+0/-0) .

            Il y a un autre problème à gérer : écrire un bon moteur de recherche n'est pas gagné du tout ;)

            Mais il est potentiellement bien meilleurs en permettant de filtrer certaines types de contenu par exemple, ou en utilisant les tags.

            « Moi, lorsque je n’ai rien à dire, je veux qu’on le sache. » Raymond Devos

          • [^] # Re: Google nous donne des sous

            Posté par (page perso) . Évalué à  3 (+0/-0) .

            Salut,

            comme je disais dans le ticket, même programmé avec les pieds, je suis persuadé que ce sera déjà mieux que Google (qui est vraiment super mauvais pour Linuxfr dans mon expérience, pas vous?), parce que nous avons accès à la structure et logique interne du site.

            À partir de là, ça signifie qu'on peut commencer par avoir un moteur de recherche basique fait en 30 minutes (genre on cherche juste la liste des mots en se limitant aux tags, au titre, puis au texte, et enfin on rajoute un bonus aux tickets récents, avec cet ordre de poids: ce sera déjà une grosse amélioration et ça fait quelques lignes de code pour la logique), puis progressivement l'améliorer avec le temps (affiner les poids, rajouter des éléments, créer un systèmes d'options à sélectionner, voire un jour tenter l'expérience d'un moteur de recherche avec apprentissage). Notez que je suis prêt à aider, mais il me faudrait un environnement de développement déjà prêt. Mon expérience désastreuse lors du concours pour le nouveau site m'a décidé à ne plus essayer d'installer cela moi-même.

            Enfin pour les pubs, je comprends. Oui l'idée de tous les ans proposer une campagne de don est intéressante en switchant sur Google search en même temps, et tant que la campagne n'est pas bouclée, semble bien. Aussi n'y a-t-il pas des entreprises qui pourraient sponsoriser Linuxfr (sous et/ou matériel, je crois que les deux se sont déjà faits pour l'assoce, non?)? Je suis sûr que c'est facile, surtout si c'est pas grand chose, parce que vous représentez la source numéro 1 d'informations relatives à Linux et au Libre en France.

            Peut-on avoir un ordre de grandeur sur la somme représentée par ces pubs? Quand vous dites que c'est pas grand chose, c'est quoi? 50 euros? 100? 1000?

            • [^] # Re: Google nous donne des sous

              Posté par (page perso) . Évalué à  2 (+0/-0) .

              Peut-on avoir un ordre de grandeur sur la somme représentée par ces pubs? Quand vous dites que c'est pas grand chose, c'est quoi? 50 euros? 100? 1000?

              Quelques centaines d'euros par an.

              • [^] # Re: Google nous donne des sous

                Posté par (page perso) . Évalué à  5 (+0/-0) .

                Si ce n'est "que" ça, une petite campagne de dons et c'est réglé ... A mon avis, il y a pas mal de monde prêt à donner de l'argent pour :

                • se débarasser de Google
                • avoir de meilleurs résultats

                En tout cas, j'en fais partie. Je suis prêt à donner 25€ pour ça.
                D'ailleurs, ça pourrait se faire via https://elveos.org/fr à mon humble avis.

                Pour le moteur de recherche, Seeks+Solr et un peu d'huile de code et c'est plié.

    • [^] # Re: Google nous donne des sous

      Posté par (page perso) . Évalué à  1 (+0/-0) .

      Franchement, je suis totalement d'accord avec la demande de fonctionnalité clairement manquante depuis des siècles. Maintenant, si c'est un problème de budget, pourquoi ne pas mettre en place un vrai formulaire de recherche avec options, tris et tout le tralala nécessaire (et adapté à linuxfr) et mettre de la pub personnalisée (addsense, etc.) sur la page de résultats ?

      Bref, avoir des vraies fonctionnalités optimisées pour linuxFR et ses spécificités en agençant la publicité un peu comme ce que fait google avec son moteur.

      Je sais que le débat de la publicité sur linuxfr a toujours été houleux maintenant je pense que de proposer l'information "gratuitement", c'est l'esprit des dépêches, journaux, etc. en première page et que la partie publicitaire sur les pages de recherche serait un modèle cohérent de business d'accès aux archives "payant".

      Enfin, pour les anti-anti-pub (ou simplement les donateurs), rien n'empêche de virer les publicités à partir du moment ou ils ont cotisés un petit pécule de quelques euros par ans et identifiés comme donateurs dans leurs préférences sur le site.

      Une piste peut-être intéressante pourrait également d'être complètement transparent sur la gestion du budget nécessaire à la vie de l'association et pouvant faire l'objet d'un journal afin de suivre le déroulement et les besoins financiers/matériels etc. Style, un budget de XX€/an pour l'année 20YY avec un détails de l'avancement réalisé pour les apports donateurs et publicitaires. Cela pourrait intéresser les gestionnaires d'associations de tous poils en terme de gestion budgétaire.

      Bon, toujours est-il que quelque soit les raisons et aboutissement, je plussois cette fonctionnalité ESSENTIELLE ! :)

      Bon courage.

  • # Les contenus que j'ai lus

    Posté par (page perso) . Évalué à  1 (+0/-0) .

    Si ça se fait, ce serait vraiment pas mal de pouvoir rechercher dans « les contenus que j'ai lus ». Cas d'utilisation : je me souviens que j'ai lu un journal mais je n'arrive plus à le retrouver dans les 42 pages de « contenus que j'ai lus », ni sur le moteur de recherche. Ajouter ce critère de filtrage permettrait d'aider à la recherche.

  • # DuckDuckGo

    Posté par (page perso) . Évalué à  0 (+0/-0) .

    On pourrait remplacer google par duckduckgo pour la recherche ?

  • # Fait

    Posté par (page perso) . Évalué à  2 (+0/-0) .

    Ça y est, LinuxFr.org a un moteur de recherche interne. Plus de détails bientôt dans une dépêche.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.