Un moteur de recherche "Open Source" ?

Posté par  . Modéré par Jaimé Ragnagna.
Étiquettes : aucune
0
18
août
2003
Internet
Le projet Nutch consiste à mettre en place un moteur de recherche open source, le but est d'obtenir des performances similaires à celles des plus grands moteurs de recherche mais en rendant complétement publiques les technologies d'indexation du moteur. "La recherche est un besoin de base des utilisateurs de l'Internet et actuellement les moteurs de recherches sont gérés par des techniques de classement gardées secrètes, ce qui n'est pas une bonne solution pour garantir une indépendance et une objectivité dans les résultats. Les gens ont le droit de savoir comment leur moteur de recherche fonctionne pour pouvoir lui faire confiance." dit Doug Cutting un des responsables du projet.

Le projet Nutch a été mis en place dans le secret l'année dernière et est soutenu par une société bien connue du monde de la recherche, Overture et des personnes clefs comme Tim O'Reilly. Une alternative à Google pourrait-elle voir le jour en Nutch ?

Aller plus loin

  • # Re: Un moteur de recherche "Open Source" ?

    Posté par  . Évalué à 8.

    Le problème me semble être:
    qui va avoir les moyens parmis les acteurs du libre de mettre à disposition une ferme de serveur similaire à celle de google en terme de puissance de calcul et espace disque (si l'on veut une fonction cache comme celle de google) ?
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  . Évalué à 4.

      Une fonction cache comme celle de google mais qui pose des problèmes de légalité.

      Effectivement, parfois c'est utile mais est-ce bien indispensable le cache ? Si le moteur renvoie de bons résultats, il y a moyen de trouver la réponse/ l'information dans un autre résultat.
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  . Évalué à 6.

      Le futur de l'informatique c'est le distribué.
      googles c'est 8000 pc?
      On trouvera bien 5 fois plus de volontaires, qui auront un peu d'espace disques et de bande passante. Un disque fait dans les 100 Go sans problémes de nos jours, et free adsl c'est du 1024 ks. Donc dans quelques années si le projet arrive à maturité, il suffira de le brancher sur un autre projet genre freenet, ou un autre distribué/p2p qui existera.
      On perdra un peu de vitesse d'exécution?
      Au début, et puis la liberté vaut bien quelques secondes de plus par recherche.
      • [^] # Re: Un moteur de recherche "Open Source" ?

        Posté par  . Évalué à 3.

        fait une recherche sur Neti , c'est un moteur de recherche peer to peer : chacun y met ses adresses ce qui permet d'avoir un triage des recherches et de tomber plus rapidement sur un site de piano qu'un amateur de piano aura recommandé via le soft
      • [^] # Re: Un moteur de recherche "Open Source" ?

        Posté par  . Évalué à 6.

        On perdra un peu de vitesse d'exécution?
        Au début, et puis la liberté vaut bien quelques secondes de plus par recherche.


        Si tu crois qu'un reseau p2p sur le net avec connexions ADSL est capable d'avoir ne serait ce que 5% des perfs du reseau interne de Google, tu reves.

        Esperer avoir un equivalent de Google en p2p(qualite de resultat, vitesse,...) c'est une chimere, c'est techniquement impossible au jour d'aujourd'hui, et probablement dans 5 aussi, car Google va s'ameliorer lui aussi.

        Le grid/distributed computing c'est bien, mais il y a des limitations et des criteres qui entrent en jeu qui font que ca ne peut pas s'appliquer n'importe comment a n'importe quel probleme.
        • [^] # Re: Un moteur de recherche "Open Source" ?

          Posté par  (site web personnel) . Évalué à -1.

          Tu crois vraiment que le trafic du réseau google interne est énorme ?

          "La première sécurité est la liberté"

          • [^] # Re: Un moteur de recherche "Open Source" ?

            Posté par  . Évalué à 2.

            Le traffic n'est pas forcement enorme, mais les temps de latence pour une requete sont tres courts.

            Transfert un fichier de 100Ko sur ton reseau local, fait de meme sur l'internet, et compares la vitesse, pourtant c'est juste 100Ko, c'est rien.
          • [^] # Re: Un moteur de recherche "Open Source" ?

            Posté par  (site web personnel) . Évalué à 1.

            Tu crois vraiment que le trafic du réseau google interne est énorme ?

            Ben c'est du gigabit, y'a pas de raison que ce soit autre chose. Ça fait quand même 3800 fois plus rapide que ta super connexion Free (qui est peut-être 1024 en descente, mais seulement 256 en montée). Même en admettant qu'ils n'ont que du 100 mbps, ça reste 380 fois plus rapide.

            Et puis n'oublies pas que les machines sont blindées au niveau de la RAM (2 ou 4 Go par machine, je pense) et qu'elles sont 100% dédiées à leur tâche, contrairement aux machines d'un réseau pair-à-pair.
        • [^] # Re: Un moteur de recherche "Open Source" ?

          Posté par  . Évalué à 4.

          "Esperer avoir un equivalent de Google en p2p(qualite de resultat, vitesse,...)c'est une chimere, c'est techniquement impossible au jour d'aujourd'hui, et probablement dans 5 aussi "

          imr parlait de distribué/p2p. Si on prend le coté distribué de l'affaire, les gens qui ont posé les bases de google ne sont (absolument) pas d'accord avec toi:

          "a distributed systems like Gloss or Harvest will often be the most efficient and elegant technical solution for indexing [...] If [...] everyone starts running a distributed indexing system, searching would certainly improve drastically"

          ce qui ne va pas d'après les gars de stanford c'est que ca demande de l'administration et de la mobilisation de beaucoup de monde... Les 2 sont surmontables et ne sont pas un problème technique.

          D'ailleurs le distribué, même google s'y met avec leur "google search bar".

          Cela dit, tout depend de qui fait quoi dans le système distribué, qui a du cpu, qui a de la ram, qui a de la bande passante, qui a du disque, qui prend la requette, qui renvoie le resultat, par quel chemin etc... Il est vrai que c'est plus simple de croire que c'est "une chimere [...] techniquement impossible", mais je pense ne pas me tromper en disant que tes 100ko sont plus rapidemment crawlé et traité par l'ensemble des machine derrière une connexion ADSL ou inferieure aujourd'hui, que par Google et MSN réuni, même dans 5 ans.
          • [^] # Re: Un moteur de recherche "Open Source" ?

            Posté par  . Évalué à 4.

            Pour le crawling je suis bien d'accord qu'un systeme distribue sera de toute facon plus efficace, par contre j'ai bcp de doutes pour ce qui est de la recherche.

            Il est totalement impossible a un user sur le net d'avoir l'index entier sur sa machine, il faut donc faire plusieurs requetes a plusieurs machines, rassembler les resultats, les trier, ...

            Et faire ces "plusieurs requetes" et le probleme principal selon moi, car faire une requete sur internet c'est un temps bcp plus long que sur un reseau local, et on se retrouve au final avec un temps de reponse bcp plus long pour l'utilisateur qui va rechigner a utiliser cela vu le temps que ca met.

            Mon constat que ce n'est pas faisable en p2p vient de la.
            • [^] # rechcerchent p2p par mots clés existent deja !

              Posté par  . Évalué à 0.

              Mon constat que ce n'est pas faisable en p2p vient de la.
              t'as jamais fait des recherches de fichiers par mot clé sur un p2p ?
              • [^] # Re: rechcerchent p2p par mots clés existent deja !

                Posté par  . Évalué à 2.

                Il y a une grosse difference entre faire une recherche ou on te renvoie seulement les 100 premiers resultats d'un ensemble restreint(qqe millions de fichiers differents au total) trouves et une recherche ou on te renvoie les meilleurs resultats de l'ensemble d'un index qui compte plus d'un milliard de pages.

                Chercher les 20-30 noeuds alentours pour avoir 100 resultats sans aucune qualite par rapport a l'ensemble(ils regardent le nom du fichier et font un match tout ce qu'il y a de plus idiot) et faire ce que fait Google il y a une montagne enorme de difference, et un grand nombre de problemes techniques que ca cree.
        • [^] # Commentaire supprimé

          Posté par  . Évalué à 3.

          Ce commentaire a été supprimé par l’équipe de modération.

          • [^] # Re: Un moteur de recherche "Open Source" ?

            Posté par  . Évalué à 3.

            Un réseau peer-to-peer de recherche est capable de faire ses recherches en contactant uniquement log N noeuds ou N est le nombre de noeuds dans le réseau. Cad pour 1e6 noeuds dans le réseaux (ce qui est vraiment beaucoup), on obtient notre résultat en interrogeant 20 noeuds.

            (adsl to adsl ping = 30ms, 20x30ms est le temps pour trouver l'info si on n'a aucun système de cache des requètes les plus fréquentes).


            Ouaip, maintenant compte combien de temps tu mets pour transmettre entre ces 20 noeuds sur internet, ou tu as des pertes de paquets de temps en temps, problemes de routeur qui tombe, engorgement aleatoires, etc...

            Transmettre des donnees entre 2 noeuds distants c'est plus que 30ms, 30ms c'est juste la latence sur le link entre les 2 noeuds.

            Il est impossible d'etre aussi rapide sur internet avec des desktops que sur un reseau local avec des serveurs optimises pour cela, c'est evident.
            • [^] # l'odre des liens est souvent plus important que de gagner 10 millisecondes

              Posté par  . Évalué à 1.

              Il est impossible d'etre aussi rapide sur internet avec des desktops que sur un reseau local
              oui mais chaque desktop pourra cacher les données les plus fréquemments demandées sur son disque dur

              et surtout le principal problème des moteurs commerciaux n'est évidemment pas leur lenteur, mais le fait qu'on ne peut pas leur faire confiance pour l'ordre des liens qu'ils affichent (leur but est quand meme de gagner le max d'argent, comme toute société anonyme)
      • [^] # Re: Un moteur de recherche "Open Source" ?

        Posté par  . Évalué à 2.

        Et sur ces 40 000 personnes, on fera confiance à chacun, on fera le pari de se dire que personne ne va trafiquer les résultats pour mettre ses sites en avant, et que personne ne génèrera de fausses entrées pour polluer les résultats...

        Pourquoi pas, ceci dit... Il y a peut-être des solutions techniques pour s'assurer que les noeuds se comportent de façon "civilisée", mais le problème me semble être non-trivial.
        • [^] # Re: Un moteur de recherche "Open Source" ?

          Posté par  . Évalué à 1.

          Ce probléme là est le même avec google ou n'importe quel autre société opérateur du moteur de recherche.
          Tu vérifies comment?
          • [^] # Re: Un moteur de recherche "Open Source" ?

            Posté par  (site web personnel) . Évalué à 1.

            Tu vérifies comment?

            En comparant avec d'autres moteurs de recherche ou d'autres réseaux de recherche pari-à-pair.
          • [^] # Re: Un moteur de recherche "Open Source" ?

            Posté par  . Évalué à 2.

            Ce probléme là est le même avec google ou n'importe quel autre société opérateur du moteur de recherche.

            Le but du moteur Open Source est justement de devenir indépendant, et de proposer un système de classement indépendant et objectif (c'est ce que dit l'article).

            Je ne vois pas comment on peut garantir cette indépendance et cette objectivité si on fait confiance à des noeuds qu'on ne maitrise pas.

            Mettre à disposition des logiciels Open Source pour que les utilisateurs hébergent eux-mêmes le moteur de recherche ne peut pas garantir que tous les nodes vont utiliser ces logiciels Open Source (ou alors il faut me dire comment...)

            (j'ai du mal m'exprimer dans mon post précédent).
            • [^] # je fais plutot confiance aux gens que je connais déjà

              Posté par  . Évalué à 0.

              de toutes façons quoique tu utilises, tu dois faire confiance à quelqu'un...

              maintenant si tu n'es connecté directement qu'à des amis de confiance (qui sont connectés à leurs amis, etc.) et que les liens des amis les + proches sont présentés en priorité dans les résultats du moteur, alors tu peux avoir confiance dans ce moteur
              (en tout cas cela m'inspire + de confiance qu'un moteur commercial comme google, qui a tout intéret à présenter en priorité les liens de ses filiales et de leur partenaires)
      • [^] # Re: Un moteur de recherche "Open Source" ?

        Posté par  (site web personnel) . Évalué à 4.

        Présent!

        Je viens de me lancer dans la création d'un moteur de recherche:
        - Open Source (en GPL)
        - Multidimensionnel
        - Et Peer To Peer

        Pour l'instant, j'ai une interface graphique qui permet d'appliquer 2 critères de tri à la fois:
        On obtient une "carte des résultats", avec, par exemple, les dates en X et le PageRank en Y.

        Regardez ca, si vous voulez en savoir plus:
        http://prdownloads.sourceforge.net/pov/PointOfView.pdf?download(...)

        (c'est le seul document du site qui soit à jour :-( )

        La prochaine étape, c'est de créér une version peer to peer de ce système, en utilisant JXTA
        ( www.jxta.org )


        Qui est intéressé?
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  (site web personnel) . Évalué à 1.

      et la fonction calculatrice ? :p
  • # Re: Un moteur de recherche "Open Source" ?

    Posté par  (site web personnel) . Évalué à 9.

    Une alternative à Google pourrait-elle voir le jour en Nutch ?

    Qui paiera le matériel ? Il faut plein d'ordis (ou des gros), plein de bande passante, et ne jamais être en panne. Des moyens que la communauté peut difficilement s'offrir, non ?

    Par ailleurs Overture, disposant justement de ces moyens, ne cherche-t-elle pas à faire réaliser sa R&D par la communauté open-source, étant la seule à être à même de mettre ensuite en production le fruit de ces recherches ?

    Moi, je n'ai rien contre un tel projet, mais je vois mal comment il peut passer au stade de la production sans commercialisation. En fait, je vois un moyen : idéalement, ce serait à l'État de financer une telle mise en production, qui serait ainsi un service public. On peut toujours rêver, hein ?
    • [^] # Un moteur de recherche p2p ?

      Posté par  . Évalué à 2.

      mais je vois mal comment il peut passer au stade de la production sans commercialisation
      p2p ?
      • [^] # Re: Un moteur de recherche p2p ?

        Posté par  . Évalué à 3.

        de la même manière que les softs p2p actuels nous retournent une liste de fichiers (issus des fichiers partagés par les participants) quand on leur donne des mots clés, ils pourraient retourner une liste de liens, issus des bookmarks partagés par les participants.

        Dans le cas de réseaux de confiance cryptés comme Waste (i.e. je ne suis connecté qu'à mes amis qui ne se connectent qu'à leurs amis, etc.) on aurait même des moyens de s'assurer que les liens les plus populaires n'ont pas été traffiqués pour des raisons commerciales
        (par exemple en s'assurant que mes amis directs ou leurs amis directs aiment aussi ces liens)
        Ce serait un avantage de taille par rapport aux moteurs actuels.
        • [^] # Re: Un moteur de recherche p2p ?

          Posté par  (site web personnel) . Évalué à 2.

          Les réseaux de confiance sont aussi faibles que le maillon le plus faible.

          Il suffit que une personne fasse confiance à un pourri (ou à une personne bien qui se laisse abusé, ou à une personne qui était bien mais qui ne l'est plus) pour que la chaîne de confiance se voit mettre des données pas très souhaitable. Et d'ici à ce que ce soit remarqué, qu'on isole le maillon faible, le problème aparaitra déjà ailleurs.

          Je ne parle même pas de monsieur tout le monde qui installera un soft dont il ne connait pas la provenance. Soft qui utilisera son identité sur le réseau pour pourrir de liens "commerciaux" (comprendre : spam). Ou encore des virus divers.

          J'ai peur qu'assez rapidement la base ne devienne fortement fortement pourrie par des spammeur et optimiseurs de site divers. Ou alors on crypte le soft pour empecher quelqu'un de l'utiliser mais il serait où l'opensource ?
          • [^] # on utilise des réseaux de confiance tous les jours !

            Posté par  . Évalué à 3.

            Les réseaux de confiance sont aussi faibles que le maillon le plus faible.
            Non car on peut attribuer des taux de confiances à leur membres (cf gnunet). Une autre technique facile est de demander la distance (en amis) qui nous sépare d'une personne dont on veut évaluer le niveau de confiance (et la possibilité de reprisailles en cas de trahison).

            Même quand on utilise pas de p2p, tous les jours nous sommes obligés de faire confiance à des gens ou à des organisations/entreprises.
            De + aucun système de communication actuel n'est incassable, et on leur fait confiance quand même.

            Par contre un réseau d'amis Waste basé sur une crypto symétrique OneTimePad serait impossible à casser (à l'ère des DVD enregistrable, des HDD de 100 gigas, et des algos de compression de fichiers très puissants, le OTP entre 2 amis est très facile à mettre en oeuvre)
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  . Évalué à 1.

      Et pourquoi pas faire vivre le projet par la publicité comme pour google ?
      Avec, biensûr, une signalisation montrant bien qu'il sagit d'un lien commercial, comme pour google ;)
      • [^] # Overture sponsorise Nutch

        Posté par  . Évalué à 1.

        C'est certainement le seul moyen pour que le projet soit viable. Overture amène les machines, payées par la pub (il faut quand même bien plusieurs millions d'euros (pour mille bouzines à 1000 euros)) et la communauté l'algo qui est donc sur. Il faut noter que Yahoo vient de racheter Overture, et si aujourd'hui ils utilisent Google, ils préféreraient avoir leur propre moteur.

        Google ne peut ouvrir son algo, c'est une grande part de leur revenu (et ça, ce n'est que de la valeur ajouté). Si un jour ça devient minoritaire, il le feront sans doute pour couper à toute polémique sur leur hégémonie et manque de transparence.

        La pierre d'achopement, c'est la nécessité d'un conseil indépendant de surveillance de l'intégration commercial/libre. Sans ça, ça ne sert à rien.
        • [^] # Re: Overture sponsorise Nutch

          Posté par  . Évalué à -1.

          J'espère qu'il trouverons un autre moyen que la pub, parceque, si c'est pour que ce soit opensource, mais un clone des projets commercieux qui existe déjà, ça vaut pas trop la peine.
  • # Concurrencer google ?

    Posté par  . Évalué à 9.

    Bon courage pour réunir en "Open Source" les 15000 PCs, la maîtrise technologique de cet exemple qui est la réelle valeur de google, la bande passante gigantesque, ...

    Non, l'intérêt d'un moteur OpenSource est ailleurs, comme l'explique O'Reilly :

    http://davenet.userland.com/2003/08/13/nutchAnOpenSourceSearchEngin(...)
    "Actually, Nutch has no ambitions to dethrone Google. It's just trying to provide an open source reference implementation of search to help keep Google and other search engines honest, by letting people compare the results of an engine whose algorithms and methodologies are transparent and accessible. It also aims to give a platform for people outside of the search heavyweights to research new search algorithms."

    Nutch n'a pas vocation à concurrencer google, mais si le projet fonctionne bien, il permettra aux gens de comparer les résultats, et donc de vérifier l'honnêteté des moteurs de recherches (google compris).

    C'est une bien belle idée et je leur souhaite bonne chance.
    • [^] # Re: Concurrencer google ?

      Posté par  . Évalué à 2.

      Hors sujet, mais tant pis :
      une fonctionnalite qui serait vraiment agreable :
      un mode 'no porn', qui eliminerait toutes les pages contenant les mots genre 'sex, tits, butt...'

      Confronte au probleme encore ce matin :
      recherche avec les mots 'spice parameters philips' sous google, altavista, metacrawler

      -> beaucoup beaucoup de pages qui me parlent des spice girls a poil.

      Critere numero un pour moi : la pertinence des 5 premieres reponses.
      Critere numero deux : le niveau de pollution des autres reponses...
      • [^] # Re: Concurrencer google ?

        Posté par  (site web personnel) . Évalué à 3.

        une fonctionnalite qui serait vraiment agreable :
        un mode 'no porn', qui eliminerait toutes les pages contenant les mots genre 'sex, tits, butt...'


        Ça doit faire sept ans qu'une telle fonctionnalité existe... Chez Google, ça s'appelle SafeSearch. Malheureusement, l'interface française n'incorpore pas ce réglage : http://www.google.fr/preferences?hl=fr(...) Il semble donc que rien ne te permette d'éviter les chattes et les queues. Si tu veux éviter les tits, cunts et autres tubgirls, il va donc te falloir utiliser la version américaine de Google : http://www.google.com/preferences?hl=en(...) (section Search Filtering).

        L'utilisation du filtrage peut également se faire au cas par cas en recherche avancée (option SafeSearch), encore une fois en américain uniquement.
        • [^] # Re: Concurrencer google ?

          Posté par  (site web personnel) . Évalué à 4.

          le probleme c'est qu'avec le commentaire que tu viens de faire, linuxfr va disparaître du SafeSearch

          "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

      • [^] # Re: Concurrencer google ?

        Posté par  . Évalué à -1.

        -> beaucoup beaucoup de pages qui me parlent des spice girls a poil.

        pas chez moi, mon boss a du mettre le filtre dont tu parles :o)
      • [^] # Re: Concurrencer google ?

        Posté par  (site web personnel) . Évalué à 7.

        Moi aussi j'aime bien la pertinence des 5 premieres reponses.
        Par example sur google image ( http://images.google.com/(...) ) la recherche de "blonde intelligente" donne des reponses pertinentes ;)

        ok ok je ->[]
        • [^] # blonde

          Posté par  . Évalué à -1.

          la recherche de "blonde intelligente" donne des reponses pertinentes
          en effet ça donne 2 bonnes réponses: une chienne et une brune portant une perruque blonde
          ->[]
          • [^] # Re: blonde

            Posté par  . Évalué à 1.

            essaie au pluriel, c'est encore plus pertinent.

            [-1] parce que sexiste et impertinent.
          • [^] # Re: blonde

            Posté par  . Évalué à 0.

            Et avec des guillemet, c'est évidament plus pertinant, il ne reste qu'un des deux résultats: le chien (au fait, qui te dis que c'est une chienne ?).
      • [^] # Filtrage

        Posté par  . Évalué à 3.

        ouais mais attention, le filtrage du porn c'est pas si facile que ça (voir une news sur /. avec les filtres de controle parental et leur bourdes : http://slashdot.org/yro/00/08/03/1155239.shtml(...) )

        Par exemple, il y a un gars qui faisait une recherche sur des oiseaux, et ben les filtres bloquaient des sites pertinants, parceque "tit" ça veut aussi dire une mésange :) (j'ai pas retrouvé l'url pour cette anecdote)
        • [^] # Re: Filtrage

          Posté par  . Évalué à 1.

          oui parfois ce n'est pas facile de trouver la limite

          Je cherchais des infos sur LaTeX il y a longtemps, alors j'ai bêtement tapé "latex" dans google. Les réponses ne correspondaient pas vraiment à ce que je cherchais ....
      • [^] # Re: Concurrencer google ?

        Posté par  (site web personnel) . Évalué à 1.

        Sur http://www.alltheweb.com(...) (que j'utilise de temps en temps en alternative à google, histoire de pas rester dépendant d'un seul fournisseur ;-) ) par défaut il y a le mode Offensive content filter à on. En résultat de ta recherche la plupart des liens parlent de "Philips Semiconductors - Philips WIDEBAND Models". C'est pertinent?

        D'ailleurs, les résultats sont les mêmes, même sans le filtre, apparement les pages pornos doivent avoir une pondération moindre :)
      • [^] # Re: Concurrencer google ?

        Posté par  . Évalué à 1.

        Chez alltheweb c'est automatique sauf si tu le desactive volontairement....
    • [^] # Re: Concurrencer google ?

      Posté par  . Évalué à 4.

      15 000 PCs, et encore... dans les pages d'offres d'emploi de Google on trouvait il y a quelques jours encore une remarque concernant un poste à Dublin pour mettre en place une ferme de 10 000 stations Linux.
      • [^] # Re: Concurrencer google ?

        Posté par  (site web personnel) . Évalué à 5.

        15000 PC, c'était il y a pile un an. Le graphique du nombre de PC en fonction du temps présentait une belle exponentielle, donc c'est certainement beaucoup plus maintenant.

        Autre fait intéressant : j'avais vu une offre de poste pour une personne à même de « créer et maintenir une distribution Linux » chez Google. Il doit donc exister un Google Linux, même si une telle distribution est probablement basée sur une distro existante (un fork interne à Google). Je n'ai jamais trouvé d'autre info à ce propos.
        • [^] # Re: Concurrencer google ?

          Posté par  . Évalué à 3.

          ils ont toujours utilisé une version modifiée de redhat linux
          • [^] # Re: Concurrencer google ?

            Posté par  . Évalué à 2.

            un parc hétérogène de 15000 machines ? ils auraient du y mettre Suse ...



            ok je --------------> []

            (et vite)
            • [^] # Re: Concurrencer google ?

              Posté par  . Évalué à 4.

              Evidemment, sur un parc hétérogène Suse s'impose comme chacun le sait. Mais comme chez google ils voulaient vraiment pas mettre la Suse, ils ont choisis de faire un parc homogène.
    • [^] # Re: Concurrencer google ?

      Posté par  . Évalué à 5.

      Nutch n'a pas vocation à concurrencer google, mais si le projet fonctionne bien, il permettra aux gens de comparer les résultats, et donc de vérifier l'honnêteté des moteurs de recherches (google compris).

      Pour comparer des résultats, il faudra que Nutch en fournisse et donc soit un vrai moteur de recherche avec ferme de PC et tout le tremblement et pas seulement une jolie description d'un algorithme qui en théorie a des propriétés épatantes.
    • [^] # Re: Concurrencer google ?

      Posté par  . Évalué à 1.

      Bon courage pour réunir en "Open Source" les 15000 PCs, la maîtrise technologique de cet exemple qui est la réelle valeur de google, la bande passante gigantesque, ...

      J'imagine déjà qu'à coté de chaque résultat, il ya une marque disant "Ce résultat a pu etre fourni grace à la contribution de telle société ou de telle personne.". La société en question (ou la personne) ayant contribuer activement (en offrant un ou plusieurs serveurs par exemple).

      De la pub gratuite !
      • [^] # Re: Concurrencer google ?

        Posté par  (site web personnel) . Évalué à 2.

        Pour peu qu'une vingtaine de machines participent à l'élaboration de la réponse (voir commentaire #257065), tu vas avoir du mal à repérer le résultat au mileu de la déferlante de remerciements. Et puis les crédits, c'est sympa, mais ça paie pas la bande passante.
  • # Re: Un moteur de recherche "Open Source" ?

    Posté par  . Évalué à 2.

    et pourquoi pas un moteur de recherche qui s'appuie sur une technologie p2p ?
    Ca permettrait d'économiser les milliers de machines.

    Par contre il va falloir travailler sur le temps d'accés ...
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  . Évalué à -3.

      La technologie p2p au service de votre moteur de recherche pedonazi.

      Alors zou, je cours dans la jardin ->[]
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  (site web personnel) . Évalué à 0.

      et pourquoi pas un moteur de recherche qui s'appuie sur une technologie p2p ?
      Ca permettrait d'économiser les milliers de machines.


      Mais pas la bande passante. Bien que pour la plupart des utilisateurs celle-ci soit en pratique « infinie et gratuite », cela pourrait bien changer si les applications pair-à-pair se multiplient.
      • [^] # Re: Un moteur de recherche "Open Source" ?

        Posté par  (Mastodon) . Évalué à 1.

        Internet est né pour être p2p, on pourait presque dire que l'architecture actuelle qq gros serveurs plein de petits clients est un accident de parcours, voir une abération du système du à l'arrivée du commerce en ligne et au manque de puissance des machines des débuts.

        J'avais vu il y a qq temps un projet de moteur de recherche distribué en p2p, je n'arrive pas à remettre la main dessus, ce serait en effet intéressant bien qu'une recherche "exhaustive" puisse en effet prendre quelques heures, ce qui finalement n'est pas forcément grave, vu le temps que l'on peut passer à lire des pages qui s'avèrent ne pas répondre à la question avant de trouver en 253eme position LA PAGE qui répond parfaitement à nos critères de recherche et dont on ne sait pas pourquoi elle à été indexée là. Je pense aussi que ce genre de moterus permettrait d'indexer beaucoup de pages qui ne peuvent pas l'être facilement par une architecture centralisée.
        • [^] # Re: Un moteur de recherche "Open Source" ?

          Posté par  (site web personnel) . Évalué à -1.

          Internet est né pour être p2p, on pourait presque dire que l'architecture actuelle qq gros serveurs plein de petits clients est un accident de parcours, voir une abération du système du à l'arrivée du commerce en ligne et au manque de puissance des machines des débuts.

          Quelles que soient les évolutions technologiques, un particulier n'aura jamais les moyens d'une société. Il y a plein de particuliers, donc plein de petits clients, et quelques entreprises, donc quelques gros serveurs. C'est de l'économie, pas de la technologie.

          vu le temps que l'on peut passer à lire des pages qui s'avèrent ne pas répondre à la question avant de trouver en 253eme position LA PAGE qui répond parfaitement à nos critères de recherche et dont on ne sait pas pourquoi elle à été indexée là.

          Excellent. :-) Il est normal que la page en 253ème position réponde parfaitement à tes critères de recherche : j'espère bien que c'était également le cas des 252 pages qui la précèdent et des 1342 pages suivantes ! Ton vrai problème, c'est pourquoi les 252 pages qui la précédent ne répondent pas à la question. La réponse, c'est que tu confonds question posée et critères de recherche, c'est que tes critères ne sont manifestement pas ceux qui permettent de retourner en 1ère position la page répondant à la question.

          C'est fou ce que les gens peuvent perdre de temps à consulter trois, quatre ou même vingt-six pages de résultats Google plutôt que de modifier leur requête, d'effectuer des recherches dans le jeu de pages retournées, ou d'aller faire un tour sur Google Groups ou Google News, ou sur d'autres moteurs de recherche, ou sur des sites spécialisés. Branchez le cerveau, vous verrez, ça accélère pas mal de choses. (Et entretenez-le, c'est de plus en plus précieux un cerveau.)
          • [^] # Re: Un moteur de recherche "Open Source" ?

            Posté par  (Mastodon) . Évalué à -1.

            Le "achète toi un cerveau", j'apprécie limite, je suis pas sûr que tu ai bien compris ce que je voulais dire, en général, quand la page qui m'intéresse est 5 ou sixième page, j'ai déja tourné ma requette dans tous les sens en plusieurs langues sur plusieurs moteurs et méta-moteurs.
            Ce que je disait donc, c'est qu'un système p2p peut sans conteste trier les résultats d'une façon que jamais les moteurs classique ne pourront. Google (en consorts) ne peut pas faire de page ranking en fonction des bookmarks de ces utilisateurs, dans un système p2p, je peux inscrire mes centres d'intéret et privilégier pour mes recherches les noeuds qui ont les même, dans un réseau p2p, je peux faire confiance à mes "amis", je peux beaucoup plus facilement "noter" les résultats obtenus en fonction de ma requète et ainsi améliorer la pertinance de tout le système.
            Avec sufisament d'utilisateurs, on peut même envisager des indexations que jamais un système centralisé commercial n'aura les moyens de faire : reconnaissance de primitives, puis de forme dans les images et autre calculs/recherches sur des documents particuliers ou sur les requetes.

            De plus un tel système p2p sous GPL peut permettre d'avoir une émulation suffisante pour en faire également le meilleur système de GED privé, chaque machine d'un réseau d'entreprise devient ainsi partie intégrante de la base de connaissance de la boite, sachant que la gestion des documents est un des + gros problèmes des entreprises.
            • [^] # Re: Un moteur de recherche "Open Source" ?

              Posté par  (site web personnel) . Évalué à -1.

              Le "achète toi un cerveau", j'apprécie limite

              Je n'ai jamais écrit ça. Tu devrais par contre manifestement faire réviser tes yeux.

              je suis pas sûr que tu ai bien compris ce que je voulais dire

              Je pense avoir compris ce que tu as écris. Peut-être n'as-tu pas écrit ce que tu voulais dire ?

              quand la page qui m'intéresse est 5 ou sixième page, j'ai déja tourné ma requette dans tous les sens en plusieurs langues sur plusieurs moteurs et méta-moteurs.

              Ça par exemple, tu ne l'avais pas écrit.
              • [^] # Re: Un moteur de recherche "Open Source" ?

                Posté par  (Mastodon) . Évalué à -1.

                Ça par exemple, tu ne l'avais pas écrit.

                Je pensait que c'était suffisement explicite et que personne me prendrait suffisement pour un c*** pour me dire que si les pages qui m'intéressaient n'était pas en première page c'était parce que je sait pas causer à google !
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  . Évalué à 2.

      Ca permettrait aussi d'avoir des liens un peu triés sur le volet, par exemple un soft qui lis les bookmarks, et lors d'une recherche interroge les autres utilisateurs sur leur bookmarks. Ca permettrait d'avoir beaucoup de sites de qualité (je ne bookmark pas les sites ininteressants...), mais au détriment de l'exhaustivité sans doute. Peut être un "complément" à google ?
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  (site web personnel) . Évalué à 4.

      Il y a une solution qui lie la puissance de calcul et le p2p qui s'apelle le Grid computing.

      Atention: Ames sensibles priere de s'abstenir de lire la suite, le future fait peur...

      Le grid c est quoi ?
      L'idee est d'utiliser les resources non utilisees des machines: la memoire, le CPU, et le Disque dur. On connaissait deja l'utilisation du CPU avec comme par exemple le projet distributed.net qui permet de craquer des clefs cryptographiques avec les machines reliees au net en utilisant les resources inactives de cette derniere.

      Sauf que la ce n'est plus des clefs qu'il s'agit de calculer, mais des molecules, des scenes 3D, des calculs financiers ou encore comme par example de stocker les peta octets d'information degage lors d'une eperience au CERN pour pouvoir les traiter ensuite.

      Dans quelques annees, des que les resources de ta playstation 3, ta Xbox, ou encore ton frigo en IPv6, ta voiture, ton lave linge, ton telephone portable, etc seront libre, ils se connecteront au grid, utiliseront leurs resources disponibles et calculeront/stockeront tout ca sans te le dire...

      Imagine les derniers pentium 4 des secretaires de ta boite avec leur 120Giga de disque dur qui de nuit comme de jour ne sont meme pas utilises a 1% de leur capacite. L'entrerprise pourra donc revendre les 99% de CPU, les 115Giga de disque restant a une Grid corporation qui elle sera quoi en faire.
      Et le particulier dans tout ca ? Ben si il laisse sa playstation allume et connecte pendant qu'il ne l'utilise pas comme ca il pourra gagner des minutes de jeux en ligne gratuit.

      Un site qui en dit encore plus: http://www.globus.org/(...)
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  (site web personnel) . Évalué à 1.

      C'est pas le principe de Grub ?

      J'ai souvent ça dans les logs :
      "Mozilla/4.0 (compatible; grub-client-1.x.x; Cr ... "

      Proverbe Alien : Sauvez la terre ? Mangez des humains !

    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  . Évalué à 2.

      tant que l'on est dans le p2p de recherche, on pourais utiliser un système de partage de bookarks. En gros une sorte de DMOZ distribué, mais qui pourais aussi servir à modifier le pagerank d'une page en fonction du nombre de bookmarks qui pointent dessus ...
      Le tout basé sur un système de réseau de confience par exemple...


      Mais les problèmes que je voit sont :
      */ Il faut déjas un bon nombre de nodes au réseau pour stoquer (avec redondance, attention) une DB dans laquelle faire des recherches
      */ Il y a le risque que dans certaines conditions, une recherche n'ai pas accès à la totalitée de la DB, d'où un problème de validité de l'ordre du résultat...

      Il faudrait donc des serveurs Internet constament présents, qui stoquent la DB, qui distribuent aux nodes p2p des recherches/parsing à effectuer, qui récoltent les réponses, et qui distribuent aussi à chaque connecté une partie de la DB, afin de répartir les recherches. Mais si une partie de la DB est innacessible, bah on tapes dans la DB des derveurs principaux, ou de leur mirors...

      Après, l'aspect réseau de confiance est très important selon moi, ne serai-ce que pour valider les résultats retournés...
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  (site web personnel) . Évalué à 1.

      Toute la presse informatique a parlé de ces projets il y a 2 ou 3 ans ; faudrait que je retrouve le nom de ces projets ; c'était basé sur Gnutella, entre autres idées.
  • # Re: Un moteur de recherche "Open Source" ?

    Posté par  . Évalué à 4.

    Excellente initiative.
    Cela nait d'un besoin de transparence, besoin qui apparait comme de plus en plus important de nos jours.

    Mais je me pose deux questions quant a sa realisabilite.
    Premier question: est-ce vraiment un besoin ?
    Si google etait en situation de monopole (ce qu'il n'est pas, il y a de la concurrence), le besoin serait reel. Mais la, nous avons acces gratuitement a d'autres moteurs de recherche qui fournissent d'autres resultats, ce qui permet de verifier la validite des informations retrouvees, par comparaison. En cas de doute, il suffit de lancer une recherche sur un moteur concurrent pour se rendre compte de la pertinence des resultats de chacun des moteurs de recherche.
    Par ailleurs, il existe des meta-moteurs de recherche qui font ce travail de maniere plus efficace que nous, a la main (quoique la, la problematique se repose)
    Ma reponse a cette question: non, ce n'est pas un besoin. Cela nait juste d'un souhait d'independance vis-a-vis des societes. Et cela n'est bien que pour realiser ce souhait d'independance.


    Seconde question: est-ce vraiment realisable ?
    Comparez google et freshmeat qui sont tous les deux en position de monopole psychologique, chacun dans son domaine. Lorsque VA a fait parler d'elle en rendant sourceforge.net une plateforme non libre, puis en mettant de la pub (dont de la pub microsoft) sur freshmeat, des initiatives ont ete prises pour creer des equivalents libres, parallelement aux sites concurrents deja existants mais meconnus. Il en resulte que quelques annees apres, freshmeat a conserve sa position de monopole psychologique (la concurrence est toujours la mais peu l'utilisent). Si l'initiative Nutch arrive a terme en proposant des fonctionnalites equivalentes a google et autres, est-ce que Nutch sera pour autant utilise ?

    Pour conclure, je considere que cela est effectivement une excellente initiative. Mais si le but affiche est de concurrencer des moteurs de recherche qui sont plutot efficaces tout en montrant ce qu'il y a dans la bete dans un souci de transparence, alors il y a autant de chances que ca marche qu'il n'y en a dans n'importe quel projet libre (y'en a qui marchent et d'autres dont on n'en entend meme pas parler parce que ca ne marche pas)

    Le but doit etre en fait de mettre en place des connaissances qui doivent etre partagees. Des connaissances sur l'indexation des donnees et autres techniques qui, au lieu de n'etre donnees (vendues ?) a quelques personnes travaillant au sein d'une meme entreprise, seront diffusees a tous ceux qui s'interessent au sujet. Des connaissances dont la visibilite sera grande et l'accessibilite facile. Bref, ce qui fait progresser l'humanite.

    Trollez bien avec cela, et le bonjour chez vous,
    Yves
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  . Évalué à 2.

      Premier question: est-ce vraiment un besoin ?
      A grande echelle ca reste une utopie a mon avis ;o) Mais ca resoudrai un probleme bien connu de nos jours. Je ne sais si tu as deja voulu mettre en place un moteur de recherche personnel, et bien tu remarqueras que peu sont performants.
      Ht://dig bien que pratique est, comment dire, lamentable. Harvest utilise glimpse qui n'est pas libre, et namazu ne supporte pas les grosses tailles.
      Pour te donner un exemple, j'ai a la maison environ 2Go de docs en tout genre, des archives mails, et un serveur de news a indexer.
      Avec ht dig, j'ai 650 Mo de data rien que pour le web ! et qd je lance une recherche simple, apres qq heures de non utilisation, il lui faut pres de 2mn a m'afficher les resultats, sur un PIII500 avec 1Go de RAM, les HD en SCSI UW160...
      Ca fait bcp et le resultat n'est pas si pertinant que ca.
      Un nouvel effort dans cette technologie (qui n'en a pas vu a ma connaissance depuis pret de 2 ans le monde du libre) est de bon aloi :)

      -1
  • # probleme d'un algo de pertinence ouvert.

    Posté par  . Évalué à 7.

    J'ai des amis dont la principal source de revenu est le site XXX. Le but du jeu est d'avoir une bonne place dans les moteurs de recherches et bien sur, ce ne sont pas les seuls. Donc ils ont mis plein de techniques au point pour augmenter le "pagerank", c'est en gros un indice de popularité du site. Donc mes amis, grace a des comptes chez des herbergeur payant + une 100aine de compte chez free ou autre, on reussi a se creer un petit reseau de site dont certain obtiennent un pagerank qui leurs permet de gagner (modestement) leurs vies. le but du jeu n'est pas de faire des pages pertinentes mais des pages dont le moteur estime qu'elles sont pertinentes. Donc tout le metier consiste a analyser comment google(et d'autre) fonctionne afin de retourner le systeme contre son moteur. c'est pas moral, c'est pas cool, mais la n'est pas la question. Imaginons que Nutch commence a percer. Mes amis vont donc se mettre à étudier Nutch, ca sera d'autant plus facile qu'il est libre et son fonctionnement sera dispo je sais bien que sécuriser avec une boite noire n'est pas une bonne solution, mais en tout cas google a choisis celle là. Vous remarquerez que la googlebar dispo sous mozilla ne donne pas d'info sur le pagerank (j'imagine parceque celle ci est GPL) contrairement a celle d'IE. Il faudrait trouver un mecanisme qui fait que meme si un mec sait exactement comme fonctionne le moteur, il ne puisse pas (trop) influencer sur le positionnement de son site. Cela dis, j'encourage vraiment Nutch car je trouve que l'importance qu'atteind google est plutot malsaine.
    • [^] # Re: probleme d'un algo de pertinence ouvert.

      Posté par  . Évalué à 1.

      oups, désolé pour le pavé.
      A l'apperçu j'avais bien des sauts de lignes pourtant.
    • [^] # Re: probleme d'un algo de pertinence ouvert.

      Posté par  . Évalué à 3.

      Il y a de très bonnes explications sur le fonctionnement de PageRank dans le bouquin "Google Hack" de O'Reilly (à paraître sous le titre "Google à 200%" en france dans les prochaines semaines).

      Les équipes de Google avaient publié un papier parlant de PageRank et donnant une idée de l'algo principal utilisé. Sans pour autant tout dire. Bref, la meilleur méthode reste l'expérimentation. D'autres explications intéressantes ici : http://www.webworkshop.net/pagerank.html(...)
    • [^] # Re: probleme d'un algo de pertinence ouvert.

      Posté par  (site web personnel) . Évalué à 1.

      Vous remarquerez que la googlebar dispo sous mozilla ne donne pas d'info sur le pagerank (j'imagine parceque celle ci est GPL) contrairement a celle d'IE.

      Le PageRank est calculé chez Google, et émis par leur serveur. Les clients Google ne peuvent que lire le PageRank, je ne vois pas quel problème Google aurait à ce qu'un client en GPL lise celui-ci.

      La raison pour laquelle la Googlebar est différente sous Mozilla et IE est probablement autre.
      • [^] # Re: probleme d'un algo de pertinence ouvert.

        Posté par  . Évalué à 2.

        je ne pensais pas que le pagerank etait calculé dans la googlebar, je voullais juste dire que Google ne devoile pas la methode pour interroger leurs serveur pour avoir le pagerank d'une page, meme dans l'API qu'ils fournissent.
        Je pense que c'est parceque ca donnerais des armes en plus a mes amis pour perfectionner leurs techniques.
    • [^] # Re: probleme d'un algo de pertinence ouvert.

      Posté par  . Évalué à 2.

      C'est comme les logiciels libres et open-source vis-a-vis des virus. La problematique reste la meme: faire un logiciel ouvert et se defendre contre les mauvaises utilisations de ce logiciel!

      Question: les developpeurs de Nutch seront-ils capables d'anticiper et/ou de contrer des gens comme tes amis ?

      Le bonjour chez vous,
      Yves
    • [^] # Re: probleme d'un algo de pertinence ouvert.

      Posté par  (site web personnel) . Évalué à -1.

      Bon vu que tout le monde le pense bien fort mais personne n'ose le demander:
      C'est quoi l'adresse des sites de tes amis ?

      ok ok je ->[]
    • [^] # Re: probleme d'un algo de pertinence ouvert.

      Posté par  . Évalué à 1.

      Pour le mecanisme ne permettant pas de truquer les resultats un principe intteressant est celui de WhittleBit (http://whittlebit.com/(...) ) : les utilisateurs notent les resultats. Cela peut etre interessant si on arrrive a identifier les utilisateurs (et detecter les tricheurs). Il serait aussi possible d'appliquer ce principe pour des moteurs de recherche semantique : renseignement semantique valide et affine par les utilisateurs.

      Pour rejeter les tricheurs une solution pourrait :
      • obliger l'utilisateurs a avoir un login (et empecher des bots de s'inscrire, cf yahoo mail)
      • mettre un poids sur les relation des sites (si A dit que B est bien et inversement le poids est plus fort)
      • favoriser les reseaux de lien avec des liens faibles mais nombreux.


      On peut esperer rejeter les reseaux d'amis qui se relient entre eux et forment un sous graphe avec des lien de poids fort et les noeuds sont tous lié, un ensemble a la densite de liens "louche" non confirmé par des liens faibles, ou correspondant a une categorie semantique eloigné( Les Sites XXX et les sites sur les oiseaux)
      • [^] # Re: probleme d'un algo de pertinence ouvert.

        Posté par  . Évalué à 1.

        Je me demande dans quel mesure c'est important d'empécher qu'on "triche".

        Le problème, c'est si des sites utilises les requette les plus fréquante pour bien placer leur site dans un maximum de requette et que ça entraine une moindre pertinance.

        Il me semble que les plus gros tricheurs sont les sites porno, hors, c'est le mot "sex" ou équivalant qui est le plus tappé dans les moteurs de recherche, donc, les sites pornos en trichant n'altaire en théorie pas le resultat des requettes sur d'autres mots.

        Maintenant, certain pourrais faire en sorte d'être dans les premiers résultat quand on tappe le mot "sex" avec leur site perso qui parle de foot et de formule 1. Donc, si manque de pertinance il y a, ce serais plutôt pour les requette concernant la pornographie, or, vu le nombre de sites de ce type, c'est d'une part peu probable et d'autre part, la pertinance à une moindre importance pour ce genre de sujet.

        A côté de ça, il y aurais toujours des webmasters qui en profiterons pour être mieux placé que leurs "concurant", mais, ça, c'est pas grâve, le résultat reste pertinant. Le seul problème éthique que ça peu causé, c'est le fait que ceux qui ne font rien pour être bien placé risque d'être encore moins bien placé, mais, ça me parrais mineur comme problème.
  • # Re: Un moteur de recherche "Open Source" ?

    Posté par  . Évalué à 4.

    QUel est l'intérêt pas à rapport à mnogosearch (http://search.mnogo.ru/(...)) ?
    Ce projet est bien avancé et uilisé par des moteurs de recherches.
    • [^] # Re: Un moteur de recherche "Open Source" ?

      Posté par  (site web personnel) . Évalué à 3.

      C'est en effet la question. Mnogosearch fonctionne très bien utilise une db en backend peut faire du cache "à la google" et même du clustering sur plusieurs db pour les indexes. Il possède un support important des différentes langues.. Il est écrit en C. (je conseille de le tester si vous désirez vous faire une bibliothèque électronique)

      Nutch est très jeune, écrit en Java et le design ne semble pas encore à la cheville de mnogosearch sur les possibilités d'index. Il serait utile de demander la motivation de créer une nouveau moteur (est-ce qu'il existe des bonnes raisons ?) et pourquoi ne pas participer à mnogosearch ? Je compte écrire un petit email dans la mailing-list de nutch. si vous avez de questions / idées en plus, n'hésitez pas.
  • # Algo de pertinence (page ranking)

    Posté par  . Évalué à 2.

    Pour ceux que cela interesse, un papier de recherche "Adaptive On-Line Page Importance Computation"

    http://www-rocq.inria.fr/~cobena/Publications/www2003-pagerank/p7-a(...)

    Jerome

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.