YaCy (« ya see », « tu vois ») est un indexeur et moteur de recherche distribué en pair à pair (P2P, peer to peer). Développé en Java, il est disponible sous licence GPL, sur les plateformes GNU/Linux, Mac OS X et l'autre. Ce projet est soutenu par la Free Software Foundation Europe (FSFE).
Dans ce réseau, chaque nœud est égal aux autres, il n'y a donc pas de nœud « maître » ou « plus fort » (super-nœuds) qui pourrait censurer ou modifier la recherche, ou bien fortement l'influencer. Chaque nœud est soit indexeur (« crawler ») pour aller chercher les pages, les analyser et indexer, soit proxy pour servir les requêtes de recherche.
La base de données de l'index est une table de hashage distribuée (distributed hash table, DHT), donc des fragments d'index sont échangés. YaCy utilise OpenSearch basé sur du XML et RSS. YaCy offre une interface d'administration très complète, ainsi qu'une interface de recherche à facettes. La recherche s'effectue à la fois sur le nœud local, mais aussi sur des pairs. Il peut fonctionner tout seul pour indexer un intranet par exemple, mais il peut être associé à d'autres moteurs dans un réseau pair-à-pair pour améliorer ses recherches.
Comparé à Seeks, YaCy est un moteur de recherche pur, alors que Seeks utilise des moteurs de recherche existant, comme Google ou Bing, pour renvoyer des résultats, l'indexation n'ayant été ajoutée que récemment. Dans la liste d'avantages, on peut dire que YaCy peut indexer Tor, I2P et Freenet entre autres, et bien évidemment YaCy n'a pas de publicité. Dans la liste des inconvénients, malheureusement, YaCy n'est pas immune aux pairs malicieux, et la pertinence et le ranking ne sont pas au niveau des moteurs privateurs.
Merci à Nÿco et Nils Ratusznik pour leur aide lors de la rédaction de cet article.
Aller plus loin
- YaCy : Le logiciel libre moteur de recherche (631 clics)
# seeks + yacy
Posté par tomarch . Évalué à 10.
Grâce à opensearch, on peut ajouter son noeud yacy dans les recherches de seeks.
Dans le fichier /etc/seeks/websearch-config :
# Sécurité
Posté par JoeltheLion (site web personnel) . Évalué à 10.
Y a-t-il au moins une feuille de route pour s'attaquer à ce problème? Sans ça, cette initiative me semble vouée à l'échec, tant les enjeux du référencement sur les moteurs de recherche sont importants.
Evidemment, tant que le nombre d'utilisateurs est limité, ça va marcher sans trop de souci, mais j'ai bien peur que les sites de Viagra apparaissent rapidement au sommet des résultats pour beaucoup de recherches...
[^] # Re: Sécurité
Posté par Grunt . Évalué à 5.
Si chaque noeud est traité à égalité, ça demanderait de louer une grande quantité de machines.
Après, certes, y'a deux problèmes qui peuvent se poser:
les abrutis qui continuent à se faire véroler, et qui se mettraient à faire du "spam de référencement via YaCy",
Ou un spammeur malin qui prendrait une plage d'IPv6 et mettrait quelques millions de noeuds YaCy virtuels derrière pour faire croire qu'il est nombreux.
THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.
[^] # Re: Sécurité
Posté par barmic . Évalué à 1.
Il peut y avoir une attaque par botnet facilement aussi …
Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
[^] # Re: Sécurité
Posté par Grunt . Évalué à 3.
Oui, botnet = abruti vérolé.
THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.
[^] # Re: Sécurité
Posté par barmic . Évalué à 2.
Et ? Ça n'empêche pas d'exister et de pouvoir pourrir les réseaux P2P de bisounours.
Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
[^] # Re: Sécurité
Posté par Grunt . Évalué à 4.
Tout à fait.
Des fois, je me dis que si y'avait un bouton "Casser les genoux" sur les clients des protocoles soumis au spam (mail, P2P..), qui permette de flooder la connexion de l'émetteur pendant 30 secondes, y'aurait moins de spam.
THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.
[^] # Re: Sécurité
Posté par mornik . Évalué à 3.
L'aspect moteur de recherche en interne dans une société peut-être très intéressant.
Il s'agit d'un autre enjeux d'importance, dans les sociétés (ou instances publiques) multinationales. Cela peut-être un débouché de première importance, financière pour le projet.
[^] # Re: Sécurité
Posté par JoeltheLion (site web personnel) . Évalué à 0.
Sachant que c'est du P2P, ça risque d'être difficile de s'assurer qu'il reste interne!
[^] # Re: Sécurité
Posté par claudex . Évalué à 4.
Il est possible de désactiver le mode P2P il me semble (sinon ils ne feraient pas la pub du moteur de recherche pour intranet sur leur site).
« Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
[^] # Re: Sécurité
Posté par barmic . Évalué à 2.
Il suffirait de créer un réseau P2P mais disjoins du réseau publique, non ?
Tous les contenus que j'écris ici sont sous licence CC0 (j'abandonne autant que possible mes droits d'auteur sur mes écrits)
# Devs bornés
Posté par Benjamin Henrion (site web personnel) . Évalué à 2.
Les devs de Yacy se bornent à ne pas ouvrir un site public, car ils veulent que les gens installent Yacy sur leur machine.
Leur bouzin en java part en couille avec quelques requêtes.
[^] # Re: Devs bornés
Posté par srm . Évalué à 1.
Il est vrai que j'ai installé Yacy sur mon pc depuis une semaine environ (peut-être un peu moins) et qu'il crash assez souvent, il n'est pas rare que je rentre le soir pour voir Yacy planté, enfin il semble travailler, mais je n'ai plus accès à rien, donc je suis obligé de le killer et de le relancer.
Pour ce que ça vaut, j'ai déjà crawlé et récupéré 1 500 000 liens ^^
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.