Mozdex, un moteur de recherche Open Source

Posté par  (site web personnel) . Modéré par Nÿco.
Étiquettes :
0
18
mai
2004
Internet
Le domaine des moteurs de recherche sur Internet est aujourd'hui fortement concentré (trois acteurs majeurs : MSN, Yahoo! et Google) et dominée par les outils propriétaires. Des risques de dérives existent : manipulation de l'information à des fins mercantiles, détournement des algorithmes de classement (Google bombing, par exemple), etc.

Sur base de Nutch, un agent de recherche Open Source, un moteur de recherche Open Source vient de voir le jour : Mozdex. Son index est initialisé avec Dmoz, l'annuaire collaboratif riche de plus de 4 millions de pages. Sans être aussi riche qu'un Google, Mozdex fonctionne déjà de manière satisfaisante (résultats pertinents, réponse rapide, etc).

Aller plus loin

  • # la liberte de chercher

    Posté par  . Évalué à 2.

    C'est une tres bonne initiative. Meme si google marche plutot bien ce serait genial d'avoir un moteur de recherche libre. Ne serait ce que pour eviter les liens publicitaires si possible...
    • [^] # Re: la liberte de chercher

      Posté par  (site web personnel) . Évalué à 10.

      marche .. c'est vite dit. Il est relativement facile à une petite communauté de jouer avec les résultats de Google. Jamais entendu parler de "député liberticide" par exemple ?
      Tant que ça n'est pas trop utilisé à tort et à travers ça va mais il faut avouer que c'est juste en attendant que certains foutent tout par terre en l'utilisant un peu trop (oui, je dis ça et je m'amuse au mangeur de cigogne, je n'ai pas peur des contradictions).

      > Ne serait ce que pour eviter les liens publicitaires si possible...

      Il y a une énorme infrastructure, je comprend qu'il faille la payer. Tant que la pub est bien séparée et identifiée comme telle ça me va.
      Par contre il ne faudrait pas oublier que Google est une boite commerciale comme une autre. Une boite qui retire des entrées sur des critères parfois contestables (1), qui fait certains filtrages sans aucun contrôle ni information (2) ... c'est quelque chose qui ne repose que sur la confiance.
      Personnellement Google a perdu la mienne quand après le rachat de Blogspot tous les blogs hébergés se sont retrouvés avec un robots.txt qui interdisait explicitement à MSN d'indexer le contenu (3). Bref, des manoeuvres de nuisance au concurent que je n'attend pas d'un moteur de recherche.

      Il faudrait un moteur de recherche libre, ou au moins "transparent", mais qui paiera ?


      (1) cf l'histoire des opposants à l'église de scientologie retirés sur fond de DMCA
      (2) oui les résultats de google.fr et google.de sont filtrés, le problème c'est que ça n'a pas été annoncé et remarqué. On sait qu'ils filtrent quelques sites neo-nazis et pédophiles mais impossible de savoir si ils ne filtrent pas autre chose (ou ne le feront pas dans le futur)
      (3) les blogs hébergés étaient donc exclus de MSN sans possibilité de correction pour les auteurs, le site principal n'était lui bien sûr pas bloqué ainsi (ce robots.txt n'interdit maintenant plus le passage de MSN aujourd'hui)
    • [^] # Re: la liberte de chercher

      Posté par  . Évalué à 6.

      > Ne serait ce que pour eviter les liens publicitaires si possible...

      "Advertise on Mozdex.com - Support our index, sponsor mozAds keyword Advertising as low as 1/cent click"

      Ça a l'air mal parti...
      • [^] # Re: la liberte de chercher

        Posté par  . Évalué à 3.

        Les liens publicitaires sont gérés à partir de http://www.mozdex.com/mozads/(...)
        Je pense que c'est un choix très compréhensible et difficilement criticable.

        Le plus important est à mon avis http://sourceforge.net/projects/mozdex/(...) malheureusement très vide en release et dans le CVS pour l'instant.

        Alors est ce qu'on a affaire à une petite société qui joue l'effet d'annonce, ou à un vrai projet opensource ?
        • [^] # Re: la liberte de chercher

          Posté par  . Évalué à 4.

          La publicité, si elle n'est pas plus voyante que sur Google, ne pose aucun problème. Vous les voyez vous, les petites boîtes à droite ?
          A première vue, si on créé une publicité sur https://mozads.mozdex.com/(...) , c'est effectivement très similaire...

          Reste tout de même à savoir si beaucoup de société vont être intéressées pour acheter de la publicité sur un moteur de recherche libre et alternatif.

          Et sinon, à quand un mozdex-watch.org ??
          • [^] # la publicité c'est bien !!! Tout est dans la manière.

            Posté par  . Évalué à 3.

            La publicité, si elle n'est pas plus voyante que sur Google, ne pose aucun problème. Vous les voyez vous, les petites boîtes à droite ?

            Oui je les vois et je clique dessus quand elles m'intéressent.

            Faire de la publicité pour rendre public, informer de son produit, c'est une bonne chose pour les entreprises, et pour le public.

            Tout est dans la manière.
      • [^] # Re: la liberte de chercher

        Posté par  . Évalué à 5.

        Ils annoncent clairement la couleur :
        http://www.mozdex.com/privacy.html(...)

        En bref ils pompent tout ce qu'ils trouvent sur vous pour le revendre aux pubeux. En contrepartie on a le droit d'utiliser le service.
        Donc pour avoir la paix, comme partout ailleurs, refuser les cookies, ne pas laisser trainer son adresse mail et utiliser http://www.privoxy.org/(...)
    • [^] # Re: la liberte de chercher

      Posté par  (site web personnel) . Évalué à 6.

      Tu confonds open-source et non commercial.

      Le moteur est open-source, et il permet d'afficher des pubs. Si tu veux modifier les sources, retirer la partie pub, et faire tourner le tout sur ton serveur, tu peux. (Contrairement à Google par exemple)

      Si tu veux que ces braves gens te fournissent l'espace de stockage collosal et la bande passante gigantesque nécessaire pour faire un moteur de recherche de qualité, gratuitement, je crois que tu rêves un peu, non ?
      • [^] # Re: la liberte de chercher

        Posté par  . Évalué à 2.

        >Si tu veux que ces braves gens te fournissent l'espace de stockage collosal et la >bande passante gigantesque nécessaire pour faire un moteur de recherche de >qualité, gratuitement, je crois que tu rêves un peu, non ?

        Et alors, j'ai pas le droit de rever ? Qui va m'en empecher ?
        Plus serieusement je trouve quand meme que le fait que
        le moteur soit libre est bonne. ET meme que ca donne des idees.
        Je me demande si un projet similaire a SETI@HOME, un moteur de
        recherche distribue et qui tournerait en background sur les machines
        de personnes volontaires auraient une chance de fonctionner. Il appartiendrait
        a tous le monde comme ca et me permettrait de rever peut etre...
    • [^] # Re: la liberte de chercher

      Posté par  . Évalué à -2.

      Puis au moins, contrairement à Google, c'est beau, et c'est du XHTML.
  • # Nutch

    Posté par  . Évalué à -2.

    On peut aussi signaler Nutch,

    http://www.nutch.org/docs/en/(...)

    avec un board qui tue sa mère comme dirait l'autre (Mitch Kapor, Tim Berners-Lee,...)


    voili voili....mais ca reste qu'un projet.
    • [^] # Re: Nutch

      Posté par  . Évalué à -2.

      ok je fais pitié j'aurai pu tout lire.
      moinssez moi :)
  • # gestion de la volumétrie, et confiance

    Posté par  . Évalué à 10.

    C'est gentil tout ça mais le problème numéro un des moteurs de recherche publics, c'est la gestion de la volumétrie :
    - en indexation (quantité de documents à indexer, fréquence de mise à jour des index)
    - en réponse aux requêtes (quantité de résultats à retourner par seconde)

    Je ne vois pas en quoi Mozdex, plus qu'un autre, résoudrait cette problématique (Google utilise à l'heure actuelle une ferme de plus de dix mille serveurs, et je serais curieux de connaître la bande passante).

    Enfin la phrase suivante me laisse extrêmement perplexe : «D'autre part, la nature Open Source permet d'espérer -comme en cryptographie par exemple- la création d'algorithmes robustes aux tentatives de manipulation des résultats. Pour Google, ces techniques manipulatoires prennent notamment la forme de fermes de liens ou de Google bombing.»

    Croire qu'un algorithme ouvert résoudra les problèmes de triche vis-à-vis des moteurs de recherche est aussi naïf que de croire que la cryptographie résoud les problèmes de confiance entre les humains.
    • [^] # Re: gestion de la volumétrie, et confiance

      Posté par  . Évalué à 2.

      au niveau du volume, ça peut très bien se distribuer.

      après tout, des tas de choses sur Internet sont déjà distribuées.
      • [^] # Re: gestion de la volumétrie, et confiance

        Posté par  . Évalué à 2.

        Ca peut tres certainement se distribuer, la question est, combien de temps est tu pret a attendre la reponse a ta requete.

        Le reseau sur lequel Google a ses clusters, c'est pas un reseau comme internet avec des gros temps de latence, des liens qui tombent de temps en temps, ...
        C'est basse latence, haut debit et haute disponibilite, chose qu'il est impossible a faire sur l'internet en distribue

        Il y a des problemes qui se pretent tres bien a etre distribues sur internet, genre SETI@Home et autres, car ils n'ont pas besoin de faible temps de latence ou de haute disponibilite du link, un moteur de recherche par contre, il est sense te filer une reponse de qualite a ta requete dans les 3 secondes qui suivent, c'est un tout autre probleme.
    • [^] # Re: gestion de la volumétrie, et confiance

      Posté par  . Évalué à 2.

      On peut au moins espérer résoudre certains problèmes un à un.
      Personne n'a parlé de miracle.

      Je pense qu'un moteur de recherche libre fournit un formidable terrain d'expérimentation pour les chercheurs en algorithmique, bases de données, gestion de connaissances, apprentissage, et plein d'autres domaines ...

      Si ça intéresse du monde, ce serait bien le comble qu'il n'en sorte pas une amélioration profitable à la communauté.

      Quant à la crypto, oui ça résoud certains problèmes de confiance ... tout comme les vitres d'une bagnole résolvent certains problèmes de pollution ...
      A défaut de mieux, je pense qu'il ne faut pas se plaindre.
  • # Pas très sympa...

    Posté par  . Évalué à 0.

    Récupérer le nom de Mozilla alors que le site n'a rien à voir avec le navigateur, c'est pas très clair comme attitude.

    Finalement, Mozdex n'est qu'un moteur de recherche géré par une entreprise privé avec des fonds privés. Alors, oui, ils mettent les sources du moteur en Open Source, mais ça ne garantit strictement rien en ce qui concerne la publicité. Ni même le fait que les algorithmes utilisés sont bien ceux présentés dans les sources puisque nous n'avons pas accès aux machines.

    Il faudrait que le projet soit réellement aux mains d'une communautée, ce qui au vu du travail d'administration et d'infrastructure à réaliser, et du budget nécessaire ne semble pas à la portée d'une telle communautée.
    • [^] # Re: Pas très sympa...

      Posté par  (site web personnel) . Évalué à 1.

      On ne va pas faire come Asterix et breveter des préfixes/suffixes tout de même ? il n'y a aucune référence au lézard, ça n'est pas un navigateur ni même un logiciel client. (À priori ça vient d'ailleurs plutot de DMOZ que de Mozilla d'ailleurs)
    • [^] # Re: Pas très sympa...

      Posté par  . Évalué à 2.

      Tout est expliqué ! Mozdex. Son index est initialisé avec Dmoz

      MozDex pour dMOZinDEX est au contraire très respectueux parce que son nom dit explicitement d'où ça vient.
  • # En parlant des sources

    Posté par  . Évalué à 2.

  • # DMOZ dispose d'une entrée francophone

    Posté par  (site web personnel) . Évalué à 4.

    DMOZ dispose d'une entrée francophone :

    http://www.aef-dmoz.org(...)

    Il serait pas mal de l'ajouter aux liens amha ; c'est encore trop confidentiel et c'est bien dommage....

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.