Le projet Nutch consiste à mettre en place un moteur de recherche open source, le but est d'obtenir des performances similaires à celles des plus grands moteurs de recherche mais en rendant complétement publiques les technologies d'indexation du moteur. "
La recherche est un besoin de base des utilisateurs de l'Internet et actuellement les moteurs de recherches sont gérés par des techniques de classement gardées secrètes, ce qui n'est pas une bonne solution pour garantir une indépendance et une objectivité dans les résultats. Les gens ont le droit de savoir comment leur moteur de recherche fonctionne pour pouvoir lui faire confiance." dit Doug Cutting un des responsables du projet.
Le projet Nutch a été mis en place dans le secret l'année dernière et est soutenu par une société bien connue du monde de la recherche, Overture et des personnes clefs comme Tim O'Reilly. Une alternative à Google pourrait-elle voir le jour en Nutch ?
Aller plus loin
# Re: Un moteur de recherche "Open Source" ?
Posté par Cédric Foll . Évalué à 8.
qui va avoir les moyens parmis les acteurs du libre de mettre à disposition une ferme de serveur similaire à celle de google en terme de puissance de calcul et espace disque (si l'on veut une fonction cache comme celle de google) ?
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par cumulus . Évalué à 4.
Effectivement, parfois c'est utile mais est-ce bien indispensable le cache ? Si le moteur renvoie de bons résultats, il y a moyen de trouver la réponse/ l'information dans un autre résultat.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Dies Irae (site web personnel) . Évalué à 10.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par cozon (site web personnel) . Évalué à 7.
Donc le matériel nécéssaire est sensiblement le même.
Personellement, je trouve la fonction cache est parfois pratique, quand un site est inaccessible ou quand des pages changent souvent (forums, etc ...)
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par pyr4nn4 . Évalué à -1.
non
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par un_brice (site web personnel) . Évalué à 1.
T'as pas de la doc ?
(ceci dit, je suppose qu'une base de données avec des entrées par mot et contenant leurs caractèristiques (mot alentours, place dans le texte, frèquence, sujets...), pour chacune des pages est effectivement plus utile que les pages elles même (qui seraient à parcourir linéairement) (ça doit être ce que voulais dire le monsieur))
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Gloo . Évalué à 5.
Ca donne une bonne idée des problèmes à surmonter:
http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm(...)
Il y a un portail aussi avec la liste des moteurs disponible (proprio et libre) et plein de doc associé, je ne retrouve plus son url malheureusement.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Gloo . Évalué à 6.
http://www.searchtools.com/(...)
:)
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Marc Lacoste . Évalué à 3.
Pour de l'info sur les moteurs de recherche en français:
http://abondance.com(...)
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par un_brice (site web personnel) . Évalué à 4.
Alors ça (me) manqueras pas trop.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par imr . Évalué à 6.
googles c'est 8000 pc?
On trouvera bien 5 fois plus de volontaires, qui auront un peu d'espace disques et de bande passante. Un disque fait dans les 100 Go sans problémes de nos jours, et free adsl c'est du 1024 ks. Donc dans quelques années si le projet arrive à maturité, il suffira de le brancher sur un autre projet genre freenet, ou un autre distribué/p2p qui existera.
On perdra un peu de vitesse d'exécution?
Au début, et puis la liberté vaut bien quelques secondes de plus par recherche.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Jean Roc Morreale . Évalué à 3.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Juke (site web personnel) . Évalué à 2.
Je donne le lien:
http://www.katarncorp.com/index.php?neti(...)
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Gloom . Évalué à 0.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par pasBill pasGates . Évalué à 6.
Au début, et puis la liberté vaut bien quelques secondes de plus par recherche.
Si tu crois qu'un reseau p2p sur le net avec connexions ADSL est capable d'avoir ne serait ce que 5% des perfs du reseau interne de Google, tu reves.
Esperer avoir un equivalent de Google en p2p(qualite de resultat, vitesse,...) c'est une chimere, c'est techniquement impossible au jour d'aujourd'hui, et probablement dans 5 aussi, car Google va s'ameliorer lui aussi.
Le grid/distributed computing c'est bien, mais il y a des limitations et des criteres qui entrent en jeu qui font que ca ne peut pas s'appliquer n'importe comment a n'importe quel probleme.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Nicolas Boulay (site web personnel) . Évalué à -1.
"La première sécurité est la liberté"
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par pasBill pasGates . Évalué à 2.
Transfert un fichier de 100Ko sur ton reseau local, fait de meme sur l'internet, et compares la vitesse, pourtant c'est juste 100Ko, c'est rien.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Boa Treize (site web personnel) . Évalué à 1.
Ben c'est du gigabit, y'a pas de raison que ce soit autre chose. Ça fait quand même 3800 fois plus rapide que ta super connexion Free (qui est peut-être 1024 en descente, mais seulement 256 en montée). Même en admettant qu'ils n'ont que du 100 mbps, ça reste 380 fois plus rapide.
Et puis n'oublies pas que les machines sont blindées au niveau de la RAM (2 ou 4 Go par machine, je pense) et qu'elles sont 100% dédiées à leur tâche, contrairement aux machines d'un réseau pair-à-pair.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par un_brice (site web personnel) . Évalué à 2.
(moi? HS?)
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Gloo . Évalué à 4.
imr parlait de distribué/p2p. Si on prend le coté distribué de l'affaire, les gens qui ont posé les bases de google ne sont (absolument) pas d'accord avec toi:
"a distributed systems like Gloss or Harvest will often be the most efficient and elegant technical solution for indexing [...] If [...] everyone starts running a distributed indexing system, searching would certainly improve drastically"
ce qui ne va pas d'après les gars de stanford c'est que ca demande de l'administration et de la mobilisation de beaucoup de monde... Les 2 sont surmontables et ne sont pas un problème technique.
D'ailleurs le distribué, même google s'y met avec leur "google search bar".
Cela dit, tout depend de qui fait quoi dans le système distribué, qui a du cpu, qui a de la ram, qui a de la bande passante, qui a du disque, qui prend la requette, qui renvoie le resultat, par quel chemin etc... Il est vrai que c'est plus simple de croire que c'est "une chimere [...] techniquement impossible", mais je pense ne pas me tromper en disant que tes 100ko sont plus rapidemment crawlé et traité par l'ensemble des machine derrière une connexion ADSL ou inferieure aujourd'hui, que par Google et MSN réuni, même dans 5 ans.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par pasBill pasGates . Évalué à 4.
Il est totalement impossible a un user sur le net d'avoir l'index entier sur sa machine, il faut donc faire plusieurs requetes a plusieurs machines, rassembler les resultats, les trier, ...
Et faire ces "plusieurs requetes" et le probleme principal selon moi, car faire une requete sur internet c'est un temps bcp plus long que sur un reseau local, et on se retrouve au final avec un temps de reponse bcp plus long pour l'utilisateur qui va rechigner a utiliser cela vu le temps que ca met.
Mon constat que ce n'est pas faisable en p2p vient de la.
[^] # rechcerchent p2p par mots clés existent deja !
Posté par free2.org . Évalué à 0.
t'as jamais fait des recherches de fichiers par mot clé sur un p2p ?
[^] # Re: rechcerchent p2p par mots clés existent deja !
Posté par pasBill pasGates . Évalué à 2.
Chercher les 20-30 noeuds alentours pour avoir 100 resultats sans aucune qualite par rapport a l'ensemble(ils regardent le nom du fichier et font un match tout ce qu'il y a de plus idiot) et faire ce que fait Google il y a une montagne enorme de difference, et un grand nombre de problemes techniques que ca cree.
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 4.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 3.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par pasBill pasGates . Évalué à 3.
(adsl to adsl ping = 30ms, 20x30ms est le temps pour trouver l'info si on n'a aucun système de cache des requètes les plus fréquentes).
Ouaip, maintenant compte combien de temps tu mets pour transmettre entre ces 20 noeuds sur internet, ou tu as des pertes de paquets de temps en temps, problemes de routeur qui tombe, engorgement aleatoires, etc...
Transmettre des donnees entre 2 noeuds distants c'est plus que 30ms, 30ms c'est juste la latence sur le link entre les 2 noeuds.
Il est impossible d'etre aussi rapide sur internet avec des desktops que sur un reseau local avec des serveurs optimises pour cela, c'est evident.
[^] # l'odre des liens est souvent plus important que de gagner 10 millisecondes
Posté par free2.org . Évalué à 1.
oui mais chaque desktop pourra cacher les données les plus fréquemments demandées sur son disque dur
et surtout le principal problème des moteurs commerciaux n'est évidemment pas leur lenteur, mais le fait qu'on ne peut pas leur faire confiance pour l'ordre des liens qu'ils affichent (leur but est quand meme de gagner le max d'argent, comme toute société anonyme)
[^] # Re: l'odre des liens est souvent plus important que de gagner 10 millisecondes
Posté par free2.org . Évalué à 1.
des serveurs plutot puissants (avec bande passante ad hoc) participent déjà aux p2p actuels
il en serait de même pour un p2p spécialisé dans les liens
[^] # Re: l'odre des liens est souvent plus important que de gagner 10 millisecondes
Posté par pasBill pasGates . Évalué à 1.
[^] # Re: l'odre des liens est souvent plus important que de gagner 10 millisecondes
Posté par free2.org . Évalué à 1.
[^] # Re: l'odre des liens est souvent plus important que de gagner 10 millisecondes
Posté par pasBill pasGates . Évalué à 1.
Non, ces serveurs sont une tres petite minorite compare aux desktops en ADSL/modem.
D'autre part, ils sont connectes entre eux par le net, qui a ces problemes de latence deja donnes ci-dessus.
Avoir 2 serveurs balezes en Gigabit Ethernet et communiquer entre eux a travers un link a 2mbs poussif car sature ca risque pas d'etre competitif avec un reseau local optimise pour la chose.
De meme, ton noeud p2p qui fait la requete a 4 noeuds pour avoir sa reponse, il va pas aller plus vite si 1 seul des noeuds est un serveur rapide avec gros link, ta reponse elle sera pas plus rapide que le plus lent des noeuds a repondre.
Il faut t'y faire, le p2p c'est pas la solution parfaite a tous les problemes, ca a des avantages, mais aussi des inconvenients.
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 2.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par mac . Évalué à 2.
Pourquoi pas, ceci dit... Il y a peut-être des solutions techniques pour s'assurer que les noeuds se comportent de façon "civilisée", mais le problème me semble être non-trivial.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par imr . Évalué à 1.
Tu vérifies comment?
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Boa Treize (site web personnel) . Évalué à 1.
En comparant avec d'autres moteurs de recherche ou d'autres réseaux de recherche pari-à-pair.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par mac . Évalué à 2.
Le but du moteur Open Source est justement de devenir indépendant, et de proposer un système de classement indépendant et objectif (c'est ce que dit l'article).
Je ne vois pas comment on peut garantir cette indépendance et cette objectivité si on fait confiance à des noeuds qu'on ne maitrise pas.
Mettre à disposition des logiciels Open Source pour que les utilisateurs hébergent eux-mêmes le moteur de recherche ne peut pas garantir que tous les nodes vont utiliser ces logiciels Open Source (ou alors il faut me dire comment...)
(j'ai du mal m'exprimer dans mon post précédent).
[^] # je fais plutot confiance aux gens que je connais déjà
Posté par free2.org . Évalué à 0.
maintenant si tu n'es connecté directement qu'à des amis de confiance (qui sont connectés à leurs amis, etc.) et que les liens des amis les + proches sont présentés en priorité dans les résultats du moteur, alors tu peux avoir confiance dans ce moteur
(en tout cas cela m'inspire + de confiance qu'un moteur commercial comme google, qui a tout intéret à présenter en priorité les liens de ses filiales et de leur partenaires)
[^] # Re: je fais plutot confiance aux gens que je connais déjà
Posté par Boa Treize (site web personnel) . Évalué à 1.
Alors pourquoi ne le fait-il pas ?
[^] # Re: je fais plutot confiance aux gens que je connais déjà
Posté par free2.org . Évalué à 1.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Philippe MOULIN (site web personnel) . Évalué à 4.
Je viens de me lancer dans la création d'un moteur de recherche:
- Open Source (en GPL)
- Multidimensionnel
- Et Peer To Peer
Pour l'instant, j'ai une interface graphique qui permet d'appliquer 2 critères de tri à la fois:
On obtient une "carte des résultats", avec, par exemple, les dates en X et le PageRank en Y.
Regardez ca, si vous voulez en savoir plus:
http://prdownloads.sourceforge.net/pov/PointOfView.pdf?download(...)
(c'est le seul document du site qui soit à jour :-( )
La prochaine étape, c'est de créér une version peer to peer de ce système, en utilisant JXTA
( www.jxta.org )
Qui est intéressé?
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Juke (site web personnel) . Évalué à 1.
# Re: Un moteur de recherche "Open Source" ?
Posté par Boa Treize (site web personnel) . Évalué à 9.
Qui paiera le matériel ? Il faut plein d'ordis (ou des gros), plein de bande passante, et ne jamais être en panne. Des moyens que la communauté peut difficilement s'offrir, non ?
Par ailleurs Overture, disposant justement de ces moyens, ne cherche-t-elle pas à faire réaliser sa R&D par la communauté open-source, étant la seule à être à même de mettre ensuite en production le fruit de ces recherches ?
Moi, je n'ai rien contre un tel projet, mais je vois mal comment il peut passer au stade de la production sans commercialisation. En fait, je vois un moyen : idéalement, ce serait à l'État de financer une telle mise en production, qui serait ainsi un service public. On peut toujours rêver, hein ?
[^] # Un moteur de recherche p2p ?
Posté par free2.org . Évalué à 2.
p2p ?
[^] # Re: Un moteur de recherche p2p ?
Posté par free2.org . Évalué à 3.
Dans le cas de réseaux de confiance cryptés comme Waste (i.e. je ne suis connecté qu'à mes amis qui ne se connectent qu'à leurs amis, etc.) on aurait même des moyens de s'assurer que les liens les plus populaires n'ont pas été traffiqués pour des raisons commerciales
(par exemple en s'assurant que mes amis directs ou leurs amis directs aiment aussi ces liens)
Ce serait un avantage de taille par rapport aux moteurs actuels.
[^] # Re: Un moteur de recherche p2p ?
Posté par Éric (site web personnel) . Évalué à 2.
Il suffit que une personne fasse confiance à un pourri (ou à une personne bien qui se laisse abusé, ou à une personne qui était bien mais qui ne l'est plus) pour que la chaîne de confiance se voit mettre des données pas très souhaitable. Et d'ici à ce que ce soit remarqué, qu'on isole le maillon faible, le problème aparaitra déjà ailleurs.
Je ne parle même pas de monsieur tout le monde qui installera un soft dont il ne connait pas la provenance. Soft qui utilisera son identité sur le réseau pour pourrir de liens "commerciaux" (comprendre : spam). Ou encore des virus divers.
J'ai peur qu'assez rapidement la base ne devienne fortement fortement pourrie par des spammeur et optimiseurs de site divers. Ou alors on crypte le soft pour empecher quelqu'un de l'utiliser mais il serait où l'opensource ?
[^] # on utilise des réseaux de confiance tous les jours !
Posté par free2.org . Évalué à 3.
Non car on peut attribuer des taux de confiances à leur membres (cf gnunet). Une autre technique facile est de demander la distance (en amis) qui nous sépare d'une personne dont on veut évaluer le niveau de confiance (et la possibilité de reprisailles en cas de trahison).
Même quand on utilise pas de p2p, tous les jours nous sommes obligés de faire confiance à des gens ou à des organisations/entreprises.
De + aucun système de communication actuel n'est incassable, et on leur fait confiance quand même.
Par contre un réseau d'amis Waste basé sur une crypto symétrique OneTimePad serait impossible à casser (à l'ère des DVD enregistrable, des HDD de 100 gigas, et des algos de compression de fichiers très puissants, le OTP entre 2 amis est très facile à mettre en oeuvre)
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par arnaud . Évalué à 1.
Avec, biensûr, une signalisation montrant bien qu'il sagit d'un lien commercial, comme pour google ;)
[^] # Overture sponsorise Nutch
Posté par Marc Lacoste . Évalué à 1.
Google ne peut ouvrir son algo, c'est une grande part de leur revenu (et ça, ce n'est que de la valeur ajouté). Si un jour ça devient minoritaire, il le feront sans doute pour couper à toute polémique sur leur hégémonie et manque de transparence.
La pierre d'achopement, c'est la nécessité d'un conseil indépendant de surveillance de l'intégration commercial/libre. Sans ça, ça ne sert à rien.
[^] # Re: Overture sponsorise Nutch
Posté par Gloom . Évalué à -1.
# Concurrencer google ?
Posté par jmfayard . Évalué à 9.
Non, l'intérêt d'un moteur OpenSource est ailleurs, comme l'explique O'Reilly :
http://davenet.userland.com/2003/08/13/nutchAnOpenSourceSearchEngin(...)
"Actually, Nutch has no ambitions to dethrone Google. It's just trying to provide an open source reference implementation of search to help keep Google and other search engines honest, by letting people compare the results of an engine whose algorithms and methodologies are transparent and accessible. It also aims to give a platform for people outside of the search heavyweights to research new search algorithms."
Nutch n'a pas vocation à concurrencer google, mais si le projet fonctionne bien, il permettra aux gens de comparer les résultats, et donc de vérifier l'honnêteté des moteurs de recherches (google compris).
C'est une bien belle idée et je leur souhaite bonne chance.
[^] # Re: Concurrencer google ?
Posté par matiphas . Évalué à 2.
une fonctionnalite qui serait vraiment agreable :
un mode 'no porn', qui eliminerait toutes les pages contenant les mots genre 'sex, tits, butt...'
Confronte au probleme encore ce matin :
recherche avec les mots 'spice parameters philips' sous google, altavista, metacrawler
-> beaucoup beaucoup de pages qui me parlent des spice girls a poil.
Critere numero un pour moi : la pertinence des 5 premieres reponses.
Critere numero deux : le niveau de pollution des autres reponses...
[^] # Re: Concurrencer google ?
Posté par Boa Treize (site web personnel) . Évalué à 3.
un mode 'no porn', qui eliminerait toutes les pages contenant les mots genre 'sex, tits, butt...'
Ça doit faire sept ans qu'une telle fonctionnalité existe... Chez Google, ça s'appelle SafeSearch. Malheureusement, l'interface française n'incorpore pas ce réglage : http://www.google.fr/preferences?hl=fr(...) Il semble donc que rien ne te permette d'éviter les chattes et les queues. Si tu veux éviter les tits, cunts et autres tubgirls, il va donc te falloir utiliser la version américaine de Google : http://www.google.com/preferences?hl=en(...) (section Search Filtering).
L'utilisation du filtrage peut également se faire au cas par cas en recherche avancée (option SafeSearch), encore une fois en américain uniquement.
[^] # Re: Concurrencer google ?
Posté par ZeroHeure . Évalué à 4.
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
[^] # Re: Concurrencer google ?
Posté par Nap . Évalué à -1.
pas chez moi, mon boss a du mettre le filtre dont tu parles :o)
[^] # Re: Concurrencer google ?
Posté par shelton2 (site web personnel) . Évalué à 7.
Par example sur google image ( http://images.google.com/(...) ) la recherche de "blonde intelligente" donne des reponses pertinentes ;)
ok ok je ->[]
[^] # blonde
Posté par free2.org . Évalué à -1.
en effet ça donne 2 bonnes réponses: une chienne et une brune portant une perruque blonde
->[]
[^] # Re: blonde
Posté par imr . Évalué à 1.
[-1] parce que sexiste et impertinent.
[^] # Re: blonde
Posté par Gloom . Évalué à 0.
[^] # Filtrage
Posté par daggett . Évalué à 3.
Par exemple, il y a un gars qui faisait une recherche sur des oiseaux, et ben les filtres bloquaient des sites pertinants, parceque "tit" ça veut aussi dire une mésange :) (j'ai pas retrouvé l'url pour cette anecdote)
[^] # Re: Filtrage
Posté par korben . Évalué à 1.
Je cherchais des infos sur LaTeX il y a longtemps, alors j'ai bêtement tapé "latex" dans google. Les réponses ne correspondaient pas vraiment à ce que je cherchais ....
[^] # Re: Concurrencer google ?
Posté par B r u n o (site web personnel) . Évalué à 1.
D'ailleurs, les résultats sont les mêmes, même sans le filtre, apparement les pages pornos doivent avoir une pondération moindre :)
[^] # Re: Concurrencer google ?
Posté par ckyl . Évalué à 1.
[^] # Re: Concurrencer google ?
Posté par Romain Guy . Évalué à 4.
[^] # Re: Concurrencer google ?
Posté par Boa Treize (site web personnel) . Évalué à 5.
Autre fait intéressant : j'avais vu une offre de poste pour une personne à même de « créer et maintenir une distribution Linux » chez Google. Il doit donc exister un Google Linux, même si une telle distribution est probablement basée sur une distro existante (un fork interne à Google). Je n'ai jamais trouvé d'autre info à ce propos.
[^] # Re: Concurrencer google ?
Posté par RB . Évalué à 3.
[^] # Re: Concurrencer google ?
Posté par fantomaxe . Évalué à 2.
ok je --------------> []
(et vite)
[^] # Re: Concurrencer google ?
Posté par RB . Évalué à 4.
[^] # Re: Concurrencer google ?
Posté par Barbapapa . Évalué à 5.
Pour comparer des résultats, il faudra que Nutch en fournisse et donc soit un vrai moteur de recherche avec ferme de PC et tout le tremblement et pas seulement une jolie description d'un algorithme qui en théorie a des propriétés épatantes.
[^] # Re: Concurrencer google ?
Posté par _seb_ . Évalué à 1.
J'imagine déjà qu'à coté de chaque résultat, il ya une marque disant "Ce résultat a pu etre fourni grace à la contribution de telle société ou de telle personne.". La société en question (ou la personne) ayant contribuer activement (en offrant un ou plusieurs serveurs par exemple).
De la pub gratuite !
[^] # Re: Concurrencer google ?
Posté par Boa Treize (site web personnel) . Évalué à 2.
# Re: Un moteur de recherche "Open Source" ?
Posté par Milo . Évalué à 2.
Ca permettrait d'économiser les milliers de machines.
Par contre il va falloir travailler sur le temps d'accés ...
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Rossel Olivier . Évalué à -3.
Alors zou, je cours dans la jardin ->[]
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Boa Treize (site web personnel) . Évalué à 0.
Ca permettrait d'économiser les milliers de machines.
Mais pas la bande passante. Bien que pour la plupart des utilisateurs celle-ci soit en pratique « infinie et gratuite », cela pourrait bien changer si les applications pair-à-pair se multiplient.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Hobgoblins Master (Mastodon) . Évalué à 1.
J'avais vu il y a qq temps un projet de moteur de recherche distribué en p2p, je n'arrive pas à remettre la main dessus, ce serait en effet intéressant bien qu'une recherche "exhaustive" puisse en effet prendre quelques heures, ce qui finalement n'est pas forcément grave, vu le temps que l'on peut passer à lire des pages qui s'avèrent ne pas répondre à la question avant de trouver en 253eme position LA PAGE qui répond parfaitement à nos critères de recherche et dont on ne sait pas pourquoi elle à été indexée là. Je pense aussi que ce genre de moterus permettrait d'indexer beaucoup de pages qui ne peuvent pas l'être facilement par une architecture centralisée.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Boa Treize (site web personnel) . Évalué à -1.
Quelles que soient les évolutions technologiques, un particulier n'aura jamais les moyens d'une société. Il y a plein de particuliers, donc plein de petits clients, et quelques entreprises, donc quelques gros serveurs. C'est de l'économie, pas de la technologie.
vu le temps que l'on peut passer à lire des pages qui s'avèrent ne pas répondre à la question avant de trouver en 253eme position LA PAGE qui répond parfaitement à nos critères de recherche et dont on ne sait pas pourquoi elle à été indexée là.
Excellent. :-) Il est normal que la page en 253ème position réponde parfaitement à tes critères de recherche : j'espère bien que c'était également le cas des 252 pages qui la précèdent et des 1342 pages suivantes ! Ton vrai problème, c'est pourquoi les 252 pages qui la précédent ne répondent pas à la question. La réponse, c'est que tu confonds question posée et critères de recherche, c'est que tes critères ne sont manifestement pas ceux qui permettent de retourner en 1ère position la page répondant à la question.
C'est fou ce que les gens peuvent perdre de temps à consulter trois, quatre ou même vingt-six pages de résultats Google plutôt que de modifier leur requête, d'effectuer des recherches dans le jeu de pages retournées, ou d'aller faire un tour sur Google Groups ou Google News, ou sur d'autres moteurs de recherche, ou sur des sites spécialisés. Branchez le cerveau, vous verrez, ça accélère pas mal de choses. (Et entretenez-le, c'est de plus en plus précieux un cerveau.)
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Hobgoblins Master (Mastodon) . Évalué à -1.
Ce que je disait donc, c'est qu'un système p2p peut sans conteste trier les résultats d'une façon que jamais les moteurs classique ne pourront. Google (en consorts) ne peut pas faire de page ranking en fonction des bookmarks de ces utilisateurs, dans un système p2p, je peux inscrire mes centres d'intéret et privilégier pour mes recherches les noeuds qui ont les même, dans un réseau p2p, je peux faire confiance à mes "amis", je peux beaucoup plus facilement "noter" les résultats obtenus en fonction de ma requète et ainsi améliorer la pertinance de tout le système.
Avec sufisament d'utilisateurs, on peut même envisager des indexations que jamais un système centralisé commercial n'aura les moyens de faire : reconnaissance de primitives, puis de forme dans les images et autre calculs/recherches sur des documents particuliers ou sur les requetes.
De plus un tel système p2p sous GPL peut permettre d'avoir une émulation suffisante pour en faire également le meilleur système de GED privé, chaque machine d'un réseau d'entreprise devient ainsi partie intégrante de la base de connaissance de la boite, sachant que la gestion des documents est un des + gros problèmes des entreprises.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Boa Treize (site web personnel) . Évalué à -1.
Je n'ai jamais écrit ça. Tu devrais par contre manifestement faire réviser tes yeux.
je suis pas sûr que tu ai bien compris ce que je voulais dire
Je pense avoir compris ce que tu as écris. Peut-être n'as-tu pas écrit ce que tu voulais dire ?
quand la page qui m'intéresse est 5 ou sixième page, j'ai déja tourné ma requette dans tous les sens en plusieurs langues sur plusieurs moteurs et méta-moteurs.
Ça par exemple, tu ne l'avais pas écrit.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Hobgoblins Master (Mastodon) . Évalué à -1.
Je pensait que c'était suffisement explicite et que personne me prendrait suffisement pour un c*** pour me dire que si les pages qui m'intéressaient n'était pas en première page c'était parce que je sait pas causer à google !
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Fulgrim . Évalué à 2.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Zorro (site web personnel) . Évalué à 2.
http://www.amoweba.com(...)
et http://solutions.journaldunet.com/0105/010518amoweba.shtml(...)
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par shelton2 (site web personnel) . Évalué à 4.
Atention: Ames sensibles priere de s'abstenir de lire la suite, le future fait peur...
Le grid c est quoi ?
L'idee est d'utiliser les resources non utilisees des machines: la memoire, le CPU, et le Disque dur. On connaissait deja l'utilisation du CPU avec comme par exemple le projet distributed.net qui permet de craquer des clefs cryptographiques avec les machines reliees au net en utilisant les resources inactives de cette derniere.
Sauf que la ce n'est plus des clefs qu'il s'agit de calculer, mais des molecules, des scenes 3D, des calculs financiers ou encore comme par example de stocker les peta octets d'information degage lors d'une eperience au CERN pour pouvoir les traiter ensuite.
Dans quelques annees, des que les resources de ta playstation 3, ta Xbox, ou encore ton frigo en IPv6, ta voiture, ton lave linge, ton telephone portable, etc seront libre, ils se connecteront au grid, utiliseront leurs resources disponibles et calculeront/stockeront tout ca sans te le dire...
Imagine les derniers pentium 4 des secretaires de ta boite avec leur 120Giga de disque dur qui de nuit comme de jour ne sont meme pas utilises a 1% de leur capacite. L'entrerprise pourra donc revendre les 99% de CPU, les 115Giga de disque restant a une Grid corporation qui elle sera quoi en faire.
Et le particulier dans tout ca ? Ben si il laisse sa playstation allume et connecte pendant qu'il ne l'utilise pas comme ca il pourra gagner des minutes de jeux en ligne gratuit.
Un site qui en dit encore plus: http://www.globus.org/(...)
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Laurent J (site web personnel, Mastodon) . Évalué à 2.
hu ? je vais trop au cinéma ? -1
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Boa Treize (site web personnel) . Évalué à 1.
C'est toi qui fais peur.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Loïs Taulelle ࿋ (site web personnel) . Évalué à 1.
J'ai souvent ça dans les logs :
"Mozilla/4.0 (compatible; grub-client-1.x.x; Cr ... "
Proverbe Alien : Sauvez la terre ? Mangez des humains !
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par un_brice (site web personnel) . Évalué à 1.
A mon avis, c'est mieux: ça permet des recherches plus rapides. Et en plus
ce logiciel est (au moins partiellement) libre (le client est sous GPL, le serveur je sais pas).
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par _PinG _ . Évalué à 2.
Le tout basé sur un système de réseau de confience par exemple...
Mais les problèmes que je voit sont :
*/ Il faut déjas un bon nombre de nodes au réseau pour stoquer (avec redondance, attention) une DB dans laquelle faire des recherches
*/ Il y a le risque que dans certaines conditions, une recherche n'ai pas accès à la totalitée de la DB, d'où un problème de validité de l'ordre du résultat...
Il faudrait donc des serveurs Internet constament présents, qui stoquent la DB, qui distribuent aux nodes p2p des recherches/parsing à effectuer, qui récoltent les réponses, et qui distribuent aussi à chaque connecté une partie de la DB, afin de répartir les recherches. Mais si une partie de la DB est innacessible, bah on tapes dans la DB des derveurs principaux, ou de leur mirors...
Après, l'aspect réseau de confiance est très important selon moi, ne serai-ce que pour valider les résultats retournés...
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Zorro (site web personnel) . Évalué à 1.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Zorro (site web personnel) . Évalué à 1.
http://news.com.com/2100-1023-241223.html?legacy=cnet(...)
# Re: Un moteur de recherche "Open Source" ?
Posté par a_jr . Évalué à 4.
Cela nait d'un besoin de transparence, besoin qui apparait comme de plus en plus important de nos jours.
Mais je me pose deux questions quant a sa realisabilite.
Premier question: est-ce vraiment un besoin ?
Si google etait en situation de monopole (ce qu'il n'est pas, il y a de la concurrence), le besoin serait reel. Mais la, nous avons acces gratuitement a d'autres moteurs de recherche qui fournissent d'autres resultats, ce qui permet de verifier la validite des informations retrouvees, par comparaison. En cas de doute, il suffit de lancer une recherche sur un moteur concurrent pour se rendre compte de la pertinence des resultats de chacun des moteurs de recherche.
Par ailleurs, il existe des meta-moteurs de recherche qui font ce travail de maniere plus efficace que nous, a la main (quoique la, la problematique se repose)
Ma reponse a cette question: non, ce n'est pas un besoin. Cela nait juste d'un souhait d'independance vis-a-vis des societes. Et cela n'est bien que pour realiser ce souhait d'independance.
Seconde question: est-ce vraiment realisable ?
Comparez google et freshmeat qui sont tous les deux en position de monopole psychologique, chacun dans son domaine. Lorsque VA a fait parler d'elle en rendant sourceforge.net une plateforme non libre, puis en mettant de la pub (dont de la pub microsoft) sur freshmeat, des initiatives ont ete prises pour creer des equivalents libres, parallelement aux sites concurrents deja existants mais meconnus. Il en resulte que quelques annees apres, freshmeat a conserve sa position de monopole psychologique (la concurrence est toujours la mais peu l'utilisent). Si l'initiative Nutch arrive a terme en proposant des fonctionnalites equivalentes a google et autres, est-ce que Nutch sera pour autant utilise ?
Pour conclure, je considere que cela est effectivement une excellente initiative. Mais si le but affiche est de concurrencer des moteurs de recherche qui sont plutot efficaces tout en montrant ce qu'il y a dans la bete dans un souci de transparence, alors il y a autant de chances que ca marche qu'il n'y en a dans n'importe quel projet libre (y'en a qui marchent et d'autres dont on n'en entend meme pas parler parce que ca ne marche pas)
Le but doit etre en fait de mettre en place des connaissances qui doivent etre partagees. Des connaissances sur l'indexation des donnees et autres techniques qui, au lieu de n'etre donnees (vendues ?) a quelques personnes travaillant au sein d'une meme entreprise, seront diffusees a tous ceux qui s'interessent au sujet. Des connaissances dont la visibilite sera grande et l'accessibilite facile. Bref, ce qui fait progresser l'humanite.
Trollez bien avec cela, et le bonjour chez vous,
Yves
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par sheepkiller . Évalué à 2.
A grande echelle ca reste une utopie a mon avis ;o) Mais ca resoudrai un probleme bien connu de nos jours. Je ne sais si tu as deja voulu mettre en place un moteur de recherche personnel, et bien tu remarqueras que peu sont performants.
Ht://dig bien que pratique est, comment dire, lamentable. Harvest utilise glimpse qui n'est pas libre, et namazu ne supporte pas les grosses tailles.
Pour te donner un exemple, j'ai a la maison environ 2Go de docs en tout genre, des archives mails, et un serveur de news a indexer.
Avec ht dig, j'ai 650 Mo de data rien que pour le web ! et qd je lance une recherche simple, apres qq heures de non utilisation, il lui faut pres de 2mn a m'afficher les resultats, sur un PIII500 avec 1Go de RAM, les HD en SCSI UW160...
Ca fait bcp et le resultat n'est pas si pertinant que ca.
Un nouvel effort dans cette technologie (qui n'en a pas vu a ma connaissance depuis pret de 2 ans le monde du libre) est de bon aloi :)
-1
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par free2.org . Évalué à 1.
# probleme d'un algo de pertinence ouvert.
Posté par animal_omega . Évalué à 7.
[^] # Re: probleme d'un algo de pertinence ouvert.
Posté par animal_omega . Évalué à 1.
A l'apperçu j'avais bien des sauts de lignes pourtant.
[^] # Re: probleme d'un algo de pertinence ouvert.
Posté par Pierre Jarillon (site web personnel) . Évalué à 1.
[^] # Re: probleme d'un algo de pertinence ouvert.
Posté par Romain Guy . Évalué à 3.
Les équipes de Google avaient publié un papier parlant de PageRank et donnant une idée de l'algo principal utilisé. Sans pour autant tout dire. Bref, la meilleur méthode reste l'expérimentation. D'autres explications intéressantes ici : http://www.webworkshop.net/pagerank.html(...)
[^] # Re: probleme d'un algo de pertinence ouvert.
Posté par Jean Roc Morreale . Évalué à 1.
[^] # Re: probleme d'un algo de pertinence ouvert.
Posté par Boa Treize (site web personnel) . Évalué à 1.
Le PageRank est calculé chez Google, et émis par leur serveur. Les clients Google ne peuvent que lire le PageRank, je ne vois pas quel problème Google aurait à ce qu'un client en GPL lise celui-ci.
La raison pour laquelle la Googlebar est différente sous Mozilla et IE est probablement autre.
[^] # Re: probleme d'un algo de pertinence ouvert.
Posté par animal_omega . Évalué à 2.
Je pense que c'est parceque ca donnerais des armes en plus a mes amis pour perfectionner leurs techniques.
[^] # Re: probleme d'un algo de pertinence ouvert.
Posté par a_jr . Évalué à 2.
Question: les developpeurs de Nutch seront-ils capables d'anticiper et/ou de contrer des gens comme tes amis ?
Le bonjour chez vous,
Yves
[^] # Re: probleme d'un algo de pertinence ouvert.
Posté par shelton2 (site web personnel) . Évalué à -1.
C'est quoi l'adresse des sites de tes amis ?
ok ok je ->[]
[^] # Re: probleme d'un algo de pertinence ouvert.
Posté par ham . Évalué à 1.
Pour rejeter les tricheurs une solution pourrait :
On peut esperer rejeter les reseaux d'amis qui se relient entre eux et forment un sous graphe avec des lien de poids fort et les noeuds sont tous lié, un ensemble a la densite de liens "louche" non confirmé par des liens faibles, ou correspondant a une categorie semantique eloigné( Les Sites XXX et les sites sur les oiseaux)
[^] # Re: probleme d'un algo de pertinence ouvert.
Posté par Gloom . Évalué à 1.
Le problème, c'est si des sites utilises les requette les plus fréquante pour bien placer leur site dans un maximum de requette et que ça entraine une moindre pertinance.
Il me semble que les plus gros tricheurs sont les sites porno, hors, c'est le mot "sex" ou équivalant qui est le plus tappé dans les moteurs de recherche, donc, les sites pornos en trichant n'altaire en théorie pas le resultat des requettes sur d'autres mots.
Maintenant, certain pourrais faire en sorte d'être dans les premiers résultat quand on tappe le mot "sex" avec leur site perso qui parle de foot et de formule 1. Donc, si manque de pertinance il y a, ce serais plutôt pour les requette concernant la pornographie, or, vu le nombre de sites de ce type, c'est d'une part peu probable et d'autre part, la pertinance à une moindre importance pour ce genre de sujet.
A côté de ça, il y aurais toujours des webmasters qui en profiterons pour être mieux placé que leurs "concurant", mais, ça, c'est pas grâve, le résultat reste pertinant. Le seul problème éthique que ça peu causé, c'est le fait que ceux qui ne font rien pour être bien placé risque d'être encore moins bien placé, mais, ça me parrais mineur comme problème.
# Re: Un moteur de recherche "Open Source" ?
Posté par jusob . Évalué à 4.
Ce projet est bien avancé et uilisé par des moteurs de recherches.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Alexandre Dulaunoy (site web personnel) . Évalué à 3.
Nutch est très jeune, écrit en Java et le design ne semble pas encore à la cheville de mnogosearch sur les possibilités d'index. Il serait utile de demander la motivation de créer une nouveau moteur (est-ce qu'il existe des bonnes raisons ?) et pourquoi ne pas participer à mnogosearch ? Je compte écrire un petit email dans la mailing-list de nutch. si vous avez de questions / idées en plus, n'hésitez pas.
[^] # Re: Un moteur de recherche "Open Source" ?
Posté par Volnai . Évalué à 2.
pourquoi ne pas participer à mnogosearch ?
Parceque.
Ah, liberté cherie...
# Algo de pertinence (page ranking)
Posté par Jérôme Baumgarten . Évalué à 2.
http://www-rocq.inria.fr/~cobena/Publications/www2003-pagerank/p7-a(...)
Jerome
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.