Yacy est un excellent moteur, mais il est très différent : il est décentralisé, son index, sa pertinence et sa rapidité dépendent du nombre d'installations de Yacy (au passage, installez-le, il est peu gourmand).
Gigablast, un vieil indépendant, est mort récemment, mais le code source est disponible je ne sais plus où. Gigablast indexait environ 1 milliard de sites web pour un coût très faible, c'était même le but de son auteur : faire un moteur qui ne coûte presque rien. Donc si quelqu'un veut relancer le projet sans dépenser trop d'argent, c'est faisable. NB: gigablast.org fonctionne sans que ce soit très clair et me semble récupérer les données de Bing.
Je sais pas ce que ça vaut niveau performance, et surtout je sais pas si ça peut supporter des embeddings tirés d'un llm.
Car il me semble que Google se base beaucoup dessus depuis qu'ils ont développé le modèle BERT.
Ca permet de faire des recherches plus basés sur la sémantique et moins sur la syntaxe.
Si quelqu'un a des infos je suis preneur.
Une alternative open-source serait plus que bienvenue, mais le meilleur remplaçant que j'ai pu jusque-là trouver à Google c'est Kagi. Non-libre, et payant, mais vraiment très, très efficace. Je n'ai pas utilisé d'autre moteur de recherche depuis – alors que je revenais toujours à Google avec Qwant et DuckDuckGo.
# Yacy
Posté par pas_pey . Évalué à 1.
Yacy le fait déjà (plus ou moins bien) depuis un certain temps :
https://yacy.net/
[^] # Re: Yacy
Posté par orfenor . Évalué à 9.
Yacy est un excellent moteur, mais il est très différent : il est décentralisé, son index, sa pertinence et sa rapidité dépendent du nombre d'installations de Yacy (au passage, installez-le, il est peu gourmand).
Si tu veux citer des projets similaires, il y a (Mojeek)[https://www.mojeek.com/about/] qui en était à plus de 7 milliards de pages indexées fin 2023, qui ne vous trace pas et même vous protège, et Yep un petit nouveau.
Gigablast, un vieil indépendant, est mort récemment, mais le code source est disponible je ne sais plus où. Gigablast indexait environ 1 milliard de sites web pour un coût très faible, c'était même le but de son auteur : faire un moteur qui ne coûte presque rien. Donc si quelqu'un veut relancer le projet sans dépenser trop d'argent, c'est faisable.
NB: gigablast.org fonctionne sans que ce soit très clair et me semble récupérer les données de Bing.
Pour tout savoir sur les moteurs de recherche, leur indépendance et leurs index, Mojeek fournit la Search Engine Map, une carte interactive qui montre les relations entre tout ce
beautrouble monde.[^] # Re: Yacy
Posté par orfenor . Évalué à 2.
Code source de gigablast
https://github.com/gigablast/open-source-search-engine
(notez les derniers chgangements de license, à propos de l'entrainement des IA, for intéressant).
[^] # Re: Yacy
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 3.
Je rajoute Marginalia à la liste des moteurs de recherche dont le code est libre (AGPL): https://search.marginalia.nu
# Infos
Posté par barmic 🦦 . Évalué à 7.
Le github : https://github.com/StractOrg/stract (AGPL)
Le cite : https://stract.com/
Il a son propre index, ce n'est pas un méta moteur. Il est écrit principalement en rust (ts et svelte pour l'interface).
Un autre lien sur reddit (donc sans paywall) où l'auteur répond à des questions : Stract| A search engine where the user has the ability to see exactly what is going on and customize almost everything about their search results.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Infos
Posté par Florian.J . Évalué à 1.
Son système optics a l'air assez puissant et semble permettre de personnaliser la recherche de façon très poussé.
C'est pas con du tout.
Par contre niveau algo de recherche il semble utiliser une implémentation alternative de Lucene d'après la doc:
https://github.com/StractOrg/stract/blob/main/docs/src/search_index.md
Je sais pas ce que ça vaut niveau performance, et surtout je sais pas si ça peut supporter des embeddings tirés d'un llm.
Car il me semble que Google se base beaucoup dessus depuis qu'ils ont développé le modèle BERT.
Ca permet de faire des recherches plus basés sur la sémantique et moins sur la syntaxe.
Si quelqu'un a des infos je suis preneur.
[^] # Re: Infos
Posté par ash . Évalué à 1.
En tout cas il semble déjà plus pertinent que Qwant..
# [Non libre] Kagi
Posté par Letho . Évalué à 2.
Une alternative open-source serait plus que bienvenue, mais le meilleur remplaçant que j'ai pu jusque-là trouver à Google c'est Kagi. Non-libre, et payant, mais vraiment très, très efficace. Je n'ai pas utilisé d'autre moteur de recherche depuis – alors que je revenais toujours à Google avec Qwant et DuckDuckGo.
https://kagi.com/
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.