Yacy 1.0

Posté par (page perso) . Édité par Nÿco, tuiu pol et Nils Ratusznik. Modéré par Florent Zara. Licence CC by-sa
Tags :
30
7
déc.
2011
Internet

YaCy (« ya see », « tu vois ») est un indexeur et moteur de recherche distribué en pair à pair (P2P, peer to peer). Développé en Java, il est disponible sous licence GPL, sur les plateformes GNU/Linux, Mac OS X et l'autre. Ce projet est soutenu par la Free Software Foundation Europe (FSFE).

Dans ce réseau, chaque nœud est égal aux autres, il n'y a donc pas de nœud « maître » ou « plus fort » (super-nœuds) qui pourrait censurer ou modifier la recherche, ou bien fortement l'influencer. Chaque nœud est soit indexeur (« crawler ») pour aller chercher les pages, les analyser et indexer, soit proxy pour servir les requêtes de recherche.

La base de données de l'index est une table de hashage distribuée (distributed hash table, DHT), donc des fragments d'index sont échangés. YaCy utilise OpenSearch basé sur du XML et RSS. YaCy offre une interface d'administration très complète, ainsi qu'une interface de recherche à facettes. La recherche s'effectue à la fois sur le nœud local, mais aussi sur des pairs. Il peut fonctionner tout seul pour indexer un intranet par exemple, mais il peut être associé à d'autres moteurs dans un réseau pair-à-pair pour améliorer ses recherches.

Comparé à Seeks, YaCy est un moteur de recherche pur, alors que Seeks utilise des moteurs de recherche existant, comme Google ou Bing, pour renvoyer des résultats, l'indexation n'ayant été ajoutée que récemment. Dans la liste d'avantages, on peut dire que YaCy peut indexer Tor, I2P et Freenet entre autres, et bien évidemment YaCy n'a pas de publicité. Dans la liste des inconvénients, malheureusement, YaCy n'est pas immune aux pairs malicieux, et la pertinence et le ranking ne sont pas au niveau des moteurs privateurs.

Merci à Nÿco et Nils Ratusznik pour leur aide lors de la rédaction de cet article.

  • # seeks + yacy

    Posté par . Évalué à 10.

    Grâce à opensearch, on peut ajouter son noeud yacy dans les recherches de seeks.
    Dans le fichier /etc/seeks/websearch-config :

    search-engine opensearch_rss http://mon_noeud_yacy:8090/yacysearch.rss?query=%query&Enter=Search&verify=cacheonly&contentdom=text yacy default    
    
    
  • # Sécurité

    Posté par (page perso) . Évalué à 10.

    YaCy n'est pas immune aux pairs malicieux

    Y a-t-il au moins une feuille de route pour s'attaquer à ce problème? Sans ça, cette initiative me semble vouée à l'échec, tant les enjeux du référencement sur les moteurs de recherche sont importants.

    Evidemment, tant que le nombre d'utilisateurs est limité, ça va marcher sans trop de souci, mais j'ai bien peur que les sites de Viagra apparaissent rapidement au sommet des résultats pour beaucoup de recherches...

    • [^] # Re: Sécurité

      Posté par . Évalué à 5.

      Si chaque noeud est traité à égalité, ça demanderait de louer une grande quantité de machines.

      Après, certes, y'a deux problèmes qui peuvent se poser:

      • les abrutis qui continuent à se faire véroler, et qui se mettraient à faire du "spam de référencement via YaCy",

      • Ou un spammeur malin qui prendrait une plage d'IPv6 et mettrait quelques millions de noeuds YaCy virtuels derrière pour faire croire qu'il est nombreux.

      THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.

      • [^] # Re: Sécurité

        Posté par . Évalué à 1.

        Il peut y avoir une attaque par botnet facilement aussi …

        Les logiciels sous licence GPL forcent leurs utilisateurs à respecter la GPL (et oui, l'eau, ça mouille).

        • [^] # Re: Sécurité

          Posté par . Évalué à 3.

          Oui, botnet = abruti vérolé.

          THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.

          • [^] # Re: Sécurité

            Posté par . Évalué à 2.

            Et ? Ça n'empêche pas d'exister et de pouvoir pourrir les réseaux P2P de bisounours.

            Les logiciels sous licence GPL forcent leurs utilisateurs à respecter la GPL (et oui, l'eau, ça mouille).

            • [^] # Re: Sécurité

              Posté par . Évalué à 4.

              Tout à fait.

              Des fois, je me dis que si y'avait un bouton "Casser les genoux" sur les clients des protocoles soumis au spam (mail, P2P..), qui permette de flooder la connexion de l'émetteur pendant 30 secondes, y'aurait moins de spam.

              THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.

    • [^] # Re: Sécurité

      Posté par (page perso) . Évalué à 3.

      L'aspect moteur de recherche en interne dans une société peut-être très intéressant.

      Il s'agit d'un autre enjeux d'importance, dans les sociétés (ou instances publiques) multinationales. Cela peut-être un débouché de première importance, financière pour le projet.

      • [^] # Re: Sécurité

        Posté par (page perso) . Évalué à 0.

        L'aspect moteur de recherche en interne dans une société peut-être très intéressant.

        Sachant que c'est du P2P, ça risque d'être difficile de s'assurer qu'il reste interne!

        • [^] # Re: Sécurité

          Posté par (page perso) . Évalué à 4.

          Il est possible de désactiver le mode P2P il me semble (sinon ils ne feraient pas la pub du moteur de recherche pour intranet sur leur site).

          « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

          • [^] # Re: Sécurité

            Posté par . Évalué à 2.

            Il suffirait de créer un réseau P2P mais disjoins du réseau publique, non ?

            Les logiciels sous licence GPL forcent leurs utilisateurs à respecter la GPL (et oui, l'eau, ça mouille).

  • # Devs bornés

    Posté par (page perso) . Évalué à 2.

    Les devs de Yacy se bornent à ne pas ouvrir un site public, car ils veulent que les gens installent Yacy sur leur machine.

    Leur bouzin en java part en couille avec quelques requêtes.

    • [^] # Re: Devs bornés

      Posté par . Évalué à 1.

      Il est vrai que j'ai installé Yacy sur mon pc depuis une semaine environ (peut-être un peu moins) et qu'il crash assez souvent, il n'est pas rare que je rentre le soir pour voir Yacy planté, enfin il semble travailler, mais je n'ai plus accès à rien, donc je suis obligé de le killer et de le relancer.

      Pour ce que ça vaut, j'ai déjà crawlé et récupéré 1 500 000 liens ^^

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.