Journal YACY: un moteur de recherche P2P en GPL

Posté par Olivier Guerrier le 01 octobre 2004 à 12:49.

Étiquettes : aucune

oct.

2004

Bonjour,

Je vous invite à découvrir YACY, un projet encore embryonnaire, mais qui me semble plein de promesses. C'est un soft écrit en java, sous licence GPL, qui s'installe très facilement sous Linux, et remplit plusieurs fonctions complémentaires:
- un proxy http (c'est comme ça qu'il se nourrit)
- un indexeur
- un moteur de recherche
- un protocole P2P, permettant au moteur de recherche de ramener des pages que vous n'avez jamais indexé.
- un mini serveur web local (pour accéder à la page de recherche) mais il peut faire un peu plus
- et encore d'autres choses, mais on sort du sujet

Le soft est opérationnel, c'est stable (il tourne depuis 10 jours sans gros soucis). Le soft est assez abouti, même si son auteur rappelle volontier qu'il s'agit d'une version alpha. (et pour avoir pas mal échangé avec lui par mail, il est sympathique, ce qui ne gâche rien)

Et les résultats ? ben oui ça sert à ça un moteur de recherche. Je vous le dis tout de suite, n'effacez pas votre raccourci vers google.... C'est pour l'instant très ... faible, mais c'est normal, il n'y a pour le moment qu'une quinzaine de peers et je cite : "Please respect the search results as a pure proof-of-concept."

Mais il faudra voir ce que ça donne avec une base installée plus importante.

La page d'accueil c'est ici
http://www.anomic.de/AnomicHTTPProxy/index.html(...)

La page de démo de l'auteur:
http://www.anomic.de/AnomicHTTPProxy/Demo.html(...)
Celle que j'ai mise en place:
http://yacy.guerrier.info/index.html(...)

Ces 2 pages de démo sont données pour vous permettre de vous faire un idée du truc sans l'installer. Dans un usage normal, elles n'ont rien à faire sur un site web public, puisque chaque personne installant le soft l'aura en local, sous une forme du type http://localhost:8080(...) .

Si vous voulez contribuer, il n'est pas indispensable d'être un dev java, installez le, utilisez le au moins au peu comme proxy histoire de mettre des données dans la base, et laissez le tourner pour partager votre index, et permettre à l'auteur de voir comment son soft réagit avec plus de peers.

Bonne découverte.

# L'idée est bonne ...

Posté par Nelis (site web personnel) le 01 octobre 2004 à 13:10. Évalué à 3.

Si j'ai bien compris, il faut l'utiliser comme proxy HTTP, ainsi il index toutes les pages auxquelles on accède et il partage ces index dans un réseau P2P ? L'idée n'est pas mauvaise ! Il faut voir ce que ça donne en pratique.
Apparemment, on peut aussi partager des fichiers qui seront partagés de la même manière, c'est ça ?
- [^] # Re: L'idée est bonne ...
  
  Posté par Olivier Guerrier le 01 octobre 2004 à 21:03. Évalué à 1.
  
  Oui, il indexe les pages obtenu via son activité de proxy.
  
  Il y a aussi une notion de partage de fichiers, mais j'avoue ne pas avoir creusé cet aspect des choses, le coté 'je fais aussi café' ne me tente pas trop, je me suis concentré sur l'aspect moteur de recherche.
# Et si on utilise Squid ?

Posté par François Obada le 01 octobre 2004 à 17:54. Évalué à 3.

Le principe me tente vachement, je passe mes journées sur le Net (pas taper) et j'ai un serveur sous Nux qui me sert de passerelle et qui fait pas grand chose. Le hic, c'est que j'utilise déjà Squid, et je suis accro. Je vois pas trop comment utiliser à la fois YACI et Squid, mais je sollicite vos conseils :)

Merci
- [^] # Re: Et si on utilise Squid ?
  
  Posté par Olivier Guerrier le 01 octobre 2004 à 21:09. Évalué à 1.
  
  Hello ;)
  
  Tu peux éventuellement chainer les 2 proxy, yacy sait utiliser un proxy comme squid pour faire ses requete sur le web. Tu aurais donc le navigateur qui interroge yacy qui lui meme interroge squid qui va interroger le site web (ouf!)
  
  Dans ce cas, tu peux dire à yacy de ne pas faire proxy cache, ce qui ferait double emploi avec squid. Cette option est (si ma mémoire est bonne) disponible uniquent dans le fichier de conf de yacy, pas dans l'interface.
- [^] # Re: Et si on utilise Squid ?
  
  Posté par Alex le 01 octobre 2004 à 21:11. Évalué à 2.
  
  Oui tu peux demander à YACY d'utiliser un autre proxy, dans le fichier httpProxy.init, clef remoteProxy*
  
  mais perso je suis pas sur de la sécurité du truc...
  lorsqu'une page me rapelle mon password ou mon numéro de carte de crédit ou toute info me concernant, les mots composants la page sont également indéxé.
  - [^] # Re: Et si on utilise Squid ?
    
    Posté par Olivier Guerrier le 01 octobre 2004 à 21:24. Évalué à 1.
    
    mais perso je suis pas sur de la sécurité du truc...
    
    C'est clairement un aspect à appronfondir, mais si c'est une page https elle n'est pas indexé, donc le compte bancaire est à l'abri ;)
    - [^] # Re: Et si on utilise Squid ?
      
      Posté par Alex le 01 octobre 2004 à 21:36. Évalué à 1.
      
      daccord, j'ai de toute façon pas mis le proxy pour les pages https
      je minquiettes plus pour les sites un peu mal conçu.
      
      J'ai néanmoins vu dans la doc que les recherches ne se font que sur les hash des mots, garantissant ainsi la sécurité du système, j'ai trouvé ça un peu bancal en fait, surtout pour l'éventuelle efficacité du système en terme de recherche et de sécurité. Mais en fait j'ai pas tout compris non plus ;) , et comme tu dis ce n'est qu'une alpha
    - [^] # Re: Et si on utilise Squid ?
      
      Posté par Olivier Guerrier le 02 octobre 2004 à 01:38. Évalué à 1.
      
      Un précision intéressante de l'auteur concernant les données privées:
      Toute page obtenue en réponse à une requête POST ou à une requete GET avec des paramètres venant d'un formulaire ne sont *pas* indexées. Donc plus de soucis de ce coté là.
      
      je le cite:
      
      * Security of private pages:
      The proxy does not index any page that is non-static; these are especially pages that are requested by POST or by using GET with form-data. this is always the case if a '?' appears in an URL. EVERY personal page (email etc) is either requested with GET and '?' in the url or using the http POST command. neither of them is indexed. If you try to search enything, you also see that never such an URL appears. If your want to be completely shure that your browsing data is save and not indexed, then use https.
      The overall rule is: 'do not index any dynamic page'. Because all personal pages are also dynamic, they are never indexed. I hope I state that clearly also in the FAQ...
      - [^] # Re: Et si on utilise Squid ?
        
        Posté par Alex le 02 octobre 2004 à 04:05. Évalué à 1.
        
        En effet
        mais si je cherche la petite bête, on peut constater que de nombreuses pages sur linuxfr sont indéxés, pourtant certaines informations, comme les commentaires ou mon login y sont affichés, car a prioris des informations sont envoyés via un cookie, et la page "statique" généré via un script. Bien sur si je cleck sur le lien a partir du moteur, je tomberai sur "mon" linuxfr personalisé... ce que je crains plus c'est que certaines infos se trouvent dans les index de mots.
        Un site un peu stupide pourrait afficher des informations plus génantes.
        
        Sinon pour ceux qui essayent : ne mettez pas le prefetch au dessus de 1 ;)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.