Lien Chat noir : un moteur de recherche libre

Posté par devnewton 🍺 (site web personnel) le 21 juin 2022 à 14:51.

Étiquettes :

juin

2022

https://www.chatnoir.eu/

# Pertinent ?

Posté par tisaac (Mastodon) le 21 juin 2022 à 16:49. Évalué à 2.

Cool (enfin, j'ai pas vérifié les détails niveau licence &co).
Plus qu'à attendre qu'il s'améliore. En effet, mes quelques rapides premiers tests ont donné des résultats à la pertinence relativement relative.
Avez-vous testé ? Avec des résultats qui vous sont utiles ?

Surtout, ne pas tout prendre au sérieux !
- [^] # Re: Pertinent ?
  
  Posté par Ysabeau 🧶 (site web personnel, Mastodon) le 21 juin 2022 à 17:28. Évalué à 3.
  
  Très bof. Par exemple, si je cherche LinuxFr, je n'ai pas le site, pas dans les premières pages en tout cas.
  
  Je n’ai aucun avis sur systemd
  - [^] # Re: Pertinent ?
    
    Posté par Anonyme le 21 juin 2022 à 18:56. Évalué à 2.
    
    ce qui parait en accord avec le nom choisi pour ce moteur de recherche: un chat noir n'est pas censé avoir du succès.
  - [^] # Re: Pertinent ?
    
    Posté par Gil Cot ✔ (site web personnel, Mastodon) le 22 juin 2022 à 23:20. Évalué à 2.
    
    En cochant tout, le second lien est la page wikipedia (pas mal) et le troisième le blog de Fabien Penso (que je ne connaissais pas)… Je n'ai parcouru que les trois premières pages, et les pages retenus ont tous linuxfr dans le titre ou le nom de leur page ainsi que dans le début de la page.
    
    “It is seldom that liberty of any kind is lost all at once.” ― David Hume
- [^] # Re: Pertinent ?
  
  Posté par cg le 21 juin 2022 à 19:54. Évalué à 4.
  
  Derrière le lien "Cite" en bas, il y a un papier qui présente le projet, et dit entre autres :
  
  At the time of writing, Elastic ChatNoir indexes the ClueWeb09, the ClueWeb12, and a 2015 instance of the Common Crawl. Regarding the latter, we plan on updating to the newest version at regular intervals.
  
  De ce que j'ai compris, les données sont (relativement) petites et anciennes. C'est une preuve de concept, pas un moteur de recherche prêt à être comparé aux géants du web.
  - [^] # Re: Pertinent ?
    
    Posté par jmiven le 21 juin 2022 à 22:01. Évalué à 4.
    
    Et pourtant, ça tourne sur un cluster aux caractéristiques déjà impressionnantes (du "beefy hardware" peut-être sous Fedora 17 ;-) ?). C'est dire combien les "géants" sont géants.
# Ça semble non libre

Posté par Zenitram (site web personnel) le 21 juin 2022 à 18:35. Évalué à -2. Dernière modification le 21 juin 2022 à 18:36.

Je n'ai même pas encore trouvé le code source du frontend, mais la page technique cite Elasticsearch.

Et par définition de libre de la FSF elle même qui exclut d'exclure à la tête de gens qu'on n'aime pas, Elasticsearch est 0% libre. Donc je ne vois pas comment tu peux dire que c'est un moteur de recherche libre.

Pourquoi parles-tu donc de libre? Ton affirmation nécessite démonstration.
- [^] # Re: Ça semble non libre
  
  Posté par cg le 21 juin 2022 à 19:55. Évalué à 3.
  
  C'est en licence MIT (y'a un lien github en bas vers le code du projet : https://github.com/chatnoir-eu)
  - [^] # Re: Ça semble non libre
    
    Posté par Zenitram (site web personnel) le 21 juin 2022 à 20:09. Évalué à 0. Dernière modification le 21 juin 2022 à 20:12.
    
    Pour la partie front end, OK, noté.
    Reste que le titre est sur le projet entier, et la ça a l'air de coincer.
    Rappelons qu'il suffit d'une ligne de code non libre pour être non libre. Alors un composant entier et obligatoire… ou est-ce que j'ai loupé un truc?
    (Oui oui, Firefox était limite un moment avec un composant optionel non libre…)
    - [^] # Re: Ça semble non libre
      
      Posté par ted (site web personnel) le 22 juin 2022 à 07:55. Évalué à 6.
      
      La dépendance à un composant non libre n'en fait pas un logiciel non libre, car ce composant ne fait pas partie du logiciel. C'est un peu comme si tu disais que Notepad++ n'est pas libre car il dépend de Windows. Tu peux aussi faire un plugin libre pour un logiciel non libre, ou inversement, le plugin n'en est pas moins libre.
      
      Mais peut-être que tu veux dire que ce n'est pas dans l'esprit du logiciel libre? ;)
      
      Un LUG en Lorraine : https://enunclic-cappel.fr
      - [^] # Re: Ça semble non libre
        
        Posté par Zenitram (site web personnel) le 22 juin 2022 à 09:00. Évalué à -2. Dernière modification le 22 juin 2022 à 09:00.
        
        Oh mais pour l'esprit j'aurai pu troller mieux, et m'étonner de l'usage de "libre" alors que la licence est MIT donc plutôt open source…
        c'est fou comme on peut afficher qu'il y a une différence "fondamentale" entre libre et open source et parler ensuite de libre pour des projets qui semblent être plus open source si on compare avec la différence affichée. C'est le côté pratique de ne pas écrire la différence au cœur de la définition, on peut adapter sa communication suivant les besoins d'affichage qu'on a à un moment.
        
        Sinon, effectivement ça dépend de ce qu'on appelle "moteur de recherche", si le composant est vraiment bien externe et n'est que de la config, mon argumentaire tombe, après faut voir si mettre une UI différente à Windows peut me faire dire que je fournis un OS libre, c'est sans doute dans la définition de "moteur de recherche" que je me suis peut-être trop avancé, je comprend que ça puisse se débattre et que je ne pourrai pas tenir longtemps un argumentaire. Mais en fait je m'attendais plutôt à m'amuser à voir les gens outrés de ne pas considérer Elasticsearch comme libre ou dans "l’esprit du libre", je suis déçu de ne pas avoir réussi à provoquer cette réaction ;-).
        
        PS : le "moinssage" est une mauvaise manip de ma part, je voulais "plusser".
        
        [^] # Re: Ça semble non libre
        
        Posté par Psychofox (Mastodon) le 22 juin 2022 à 12:17. Évalué à 4.
        
        Tout dépend si l'application est compatible avec opensearch.
        
        [^] # Re: Ça semble non libre
        
        Posté par Renault (site web personnel) le 22 juin 2022 à 12:55. Évalué à 5.
        
        c'est fou comme on peut afficher qu'il y a une différence "fondamentale" entre libre et open source et parler ensuite de libre pour des projets qui semblent être plus open source si on compare avec la différence affichée. C'est le côté pratique de ne pas écrire la différence au cœur de la définition, on peut adapter sa communication suivant les besoins d'affichage qu'on a à un moment.
        
        Je vois que tu constates que la quête à la cohérence globale ressemble à celle du St-Graal.
        Malheureusement le roi Arthur ne semble pas se présenter encore pour nous la rapporter. :(
- [^] # Re: Ça semble non libre
  
  Posté par devnewton 🍺 (site web personnel) le 22 juin 2022 à 09:30. Évalué à 8.
  
  Il existe une implémentation libre d'Elasticsearch: OpenSearch
  
  Ce post est offensant ? Prévenez moi sur https://linuxfr.org/board
# Lapin compris

Posté par arnaudus le 22 juin 2022 à 15:27. Évalué à 6.

C'est quand même curieux à quel point on peut passer des années de boulot à faire un site et pas une minute à expliquer ce qu'il est censé faire. C'est un projet, une démonstration technique, un site utilisable, une publicité, une farce?

Le moteur en lui-même est naze, il suffit de taper une seule requête pour s'en rendre compte. Il est probable que la base de données derrière est toute petite (par exemple, pas de lien vers Wikipédia; un moteur qui ne ferait que renvoyer vers Wikipédia serait déja 100 fois plus pertinent), et il semble que le moteur ne sache pas reconnaitre la langue de la requête—il retourne parfois des résultats en allemand, souvent en anglais, mais sans logique. Zéro sémantique, ça ressemble à une recherche par mot-clé. Par exemple, quand on demande "how many bats", on tombe sur des trucs de baseball. Google ne s'y trompe pas, il devine qu'on veut savoir combien il existe d'espèces de chauve-souris.

Pire, il ne semble avoir aucune protection en pratique contre le spam. Taper "chat noir moteur" mène en première réponse sur "Träffen swingerdateclub Irc chat El Singles Likemynudephoto sex chat rooms Thebangclub The erotic review Iniian dixk harrcore wide harem efficient adult-cocksuckers".

En fait, c'est un projet secret pour nous faire aimer Google et nous montrer ce que serait Internet sans les GAFAM?

Au final, c'est intéressant de voir comment il est difficile de créer un moteur de recherche qui soit aussi rapide, efficace, et fonctionnel que Google. Les "alternatives libres" qui s'y essayent sont en général assez foireuses, et celles qui ne le sont pas sont des aggrégateurs de réponses de différents moteurs (et comme les concurrents pompent tous plus ou moins Google, c'est en fait le résultat de Google).
- [^] # Re: Lapin compris
  
  Posté par devnewton 🍺 (site web personnel) le 22 juin 2022 à 22:01. Évalué à 5.
  
  Ce qui est inquiétant, c'est que Google et Bing sont aussi en baisse : je trouve leurs résultats de moins en moins pertinents chaque année.
  
  Ce post est offensant ? Prévenez moi sur https://linuxfr.org/board
  - [^] # Re: Lapin compris
    
    Posté par arnaudus le 23 juin 2022 à 09:19. Évalué à 6.
    
    Peut-être les milliards de $ engloutis dans la recherche de méthodes pour biaiser les page rank finissent par porter leurs fruits…
- [^] # Re: Lapin compris
  
  Posté par Gil Cot ✔ (site web personnel, Mastodon) le 22 juin 2022 à 23:24. Évalué à -1.
  
  Tu n'as visiblement pas trouvé ce lien en bas de la page :
  https://www.chatnoir.eu/doc/architecture/
  
  “It is seldom that liberty of any kind is lost all at once.” ― David Hume
  - [^] # Re: Lapin compris
    
    Posté par arnaudus le 23 juin 2022 à 09:13. Évalué à 3.
    
    C'est une doc technique incomplète sur l'architecture du moteur, je ne vois pas ce que ça dit sur la finalité du projet… Et si tu vas par là, certains liens en bas de la page mènent à des pages en Allemand, pas très pratique.
    
    En tout cas, si le but est de démontrer des possibilités techniques, ça fonctionne mal, ça n'a pas l'air mieux qu'un grep sur HTMLtoText… Peut-être que derrière, la base de données est bien construite et que c'est rapide et optimisé, mais un moteur de recherche c'est quand même bien plus qu'un Ctrl+F sur le web.
    - [^] # Re: Lapin compris
      
      Posté par Gil Cot ✔ (site web personnel, Mastodon) le 23 juin 2022 à 17:37. Évalué à 1.
      
      C'est visiblement un POC ; je n'ai trouvé le projet référencé nulle part, et sans le lien posté posté ici nombre d'entre nous n'en auraient pas entendu parler.
      
      ça n'a pas l'air mieux qu'un grep sur HTMLtoText… Peut-être que derrière, la base de données est bien construite et que c'est rapide et optimisé, mais un moteur de recherche c'est quand même bien plus qu'un Ctrl+F sur le web.
      
      J'ai cru un instant ne plus savoir ce qu'est c'est fondamentalement, mais Wikipedia me confirme qu'un moteur de recherche « fonction avec une indexation du contenu des sites internet dans une ou plusieurs base de données de l'exploitant du moteur de recherche, indexation effectuée préalablement à la recherche. » Que ce ne soit pas un truc assez évolué ou pertinent n'en fait pas moins un moteur de recherche que la suite de page que tu enregistrerais en local pour greper dessus. Jdçjdr
      
      “It is seldom that liberty of any kind is lost all at once.” ― David Hume
      - [^] # Re: Lapin compris
        
        Posté par ted (site web personnel) le 23 juin 2022 à 23:39. Évalué à 5.
        
        J'ai le sentiment que je trouvais plus facilement des réponses techniques avec les anciens moteurs de recherche (ou Google du début) qui n'essayaient pas de comprendre ma demande. C'est très frustrant quand on cherche quelque chose qui sort de l'ordinaire et que le moteur de recherche remplace les mots-clés par quelque chose d'autre parce qu'il se croit plus malin que l'utilisateur. Donc un moteur de recherche qui fonctionne différemment, ça pourrait être bien.
        
        Un LUG en Lorraine : https://enunclic-cappel.fr
        
        [^] # Re: Lapin compris
        
        Posté par Gil Cot ✔ (site web personnel, Mastodon) le 12 juillet 2022 à 01:13. Évalué à 2.
        
        sentiment largement partagé
        
        “It is seldom that liberty of any kind is lost all at once.” ― David Hume
# site web disparu

Posté par MicP le 30 juin 2022 à 15:47. Évalué à 1. Dernière modification le 30 juin 2022 à 15:48.

Je me demande pourquoi, quand on recherche des livres libres,
le site web : https://www.gutenberg.org n'est plus dans les réponses des moteurs de recherche ?

… et dans ce royaume, ceux qui y voient un peu plus clair sont parfois très mal vus.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.