: Google et PageRank... L'avenir passe par le libre?

Posté par tiwaz (). Modéré le 26 février 2007.
0
Google doit une grande partie de son succès à l'algorithme du PageRank utilisé. Il peut être intéressant pour ceux qui sont novices en la matière de connaître son fonctionnement, ne serais-ce que pour une question de culture générale.

Le site Interstices propose un très bon article de vulgarisation, qui va plus loin que la simple analyse du moteur de recherche californien, en posant un certains nombre de questions sur le fonctionnement de l'entreprise derrière ce dernier. Entre les interrogations sur la valeur réelle du nombre de pages indexées, ou encore sur certains résultats étranges du moteur, tout comme sur les problèmes même de l'implémentation du PageRanking (est-ce vraiment lui qui est utilisé ?), l'article permet de mettre en perspective certains points intéressants.

En conclusion, l'article espère que le marché forcera plus de transparence pour les modèles utilisés, estimant que l'utilisateur préfère comprendre le classement dans un moteur de recherche plutôt que de faire confiance à une boite noire. Dans le cas contraire, un totalitarisme du marché des moteurs de recherche n'est pas à exclure...

> Lire la suite (22 commentaires, moyenne: 3,1).   [dépêche : 1165 caractères]

Vous avez demandé le commentaire #807958.

de l'inutilité d'un moteur de recherche libre

Posté par Moun's (page perso, ) le 26/02/2007 à 17:13. (lien). Évalué à 10.

Apres moult lectures de l'articles, et quelques recherches sur l'auteur, je suis deçu par l'absence flagrante de qualité de cet article.

l'article me semble etre une tartine rance issu d'un fond de confiture moisi. le propos est dur, je le reconnais, peut etre meme un peu exagéré, mais elle repose sur certaines observations que je fais sur le texte.

Qu'un chercheur en mathematique fasse un article sur un algorithme d'un moteur de recherche et se pose sur le secret l'entourant, ne doit pas l'empecher de faire des recherches annexes, sur les personnes utilisant le moteur de recherche. Pourtant, cette personne ignore une grande partie, voire la plus grande partie des clients des moteurs de recherches : les webmasters & autres propriétaires de sites.

L'utilisateur premier aurait du être l'internaute, le gentil surfeur, la menagere de plus de 50 ans, ... mais la réalité est tout autre, le premier utilisateur de moteur de recherche est celui qui veut voir son site etre dans les 10 premiers liens de google sur certains mots clés.

L'article a été publié en novembre 2005, je présume qu'il n'a pas été écrit en 98 ou 99 mais plus probablement un peu avant novembre 2005. Durant la même année, j'ai eu pour mission de referencer certains sites, j'ai eu à me renseigner sur diverses techniques pour améliorer le réferencement sur google, yahoo, msn, et d'autres.

Le premier point qui me chiffone est celui ci : l'auteur ne semble pas savoir ce qu'est le cloaking , le duplicate-content , les PR10 locaux, le PR spoofing, et tant d'autres techniques qui permettent d'etre classé dans les 10 premiers liens ...

Dès que google a connu un peu de notoriété, le fameux article de Brin et Page fut publié, décortiqué, analysé, torturé pour comprendre un peu la mécanique sous-jacente ...

Et pour faire un parallèle avec la cryptographie, Google a subit des attaques d'un nouveau genre à son encontre : des attaques de referencement.

Google a donc modifié son algorithme au fil du temps car certaines de ces attaques nuisaient à la qualité des résultats.

un exemple tres simple et un des premiers si je me souviens bien :
si l'on regarde l'algo lui meme, on constate que si on reference X pages contenant une dizaine de liens vers diverses pages qui elle-meme pointent sur leur source et sur une destination unique, qui repointe sur certaines source de source, on peut creer des nébuleuse de PR 10 sans avoir aucune notoriété reelle.

Pourquoi ? tout simplement par ce que l'algorithme manipule un graphe qui est en fait une foret de graphe, c'est a dire que ce graphe représentant internet peut etre coupé en sous graphe sans couper aucun lien existant.

Maintenant, pour clarifier un point, cette attaque repose sur une contrainte budgetaire "avoir un portefeuille de domaine suffisament important" donc ce n'est pas avec 4 ou 10 domaines que l'on peut monter une attaque^W un referencement de la sorte :p

Google a donc changer son algo pour gerer ce type de problemes.

apres on trouve le tres classique SPAMlog :
c'est la meme IP qui balance plusieurs milliers de requetes sur certaines pages d'un site avec differents referers. si ce site publie ses statistiques web, le site fourni une page de referencement permettant de falsifier le PR d'un site.

Encore une fois, Google a cherché encore à contrer ce genre de choses.

il y a les liens "no-follow" et d'autres solutions proposés qui ont un impact au niveau meme de l'algo utilisé par google.

donc, l'algo d'origine quelqu'il soit, n'est plus le meme depuis des années :D ... et cette information et le pourquoi n'est meme pas evoqué dans l'article.

donc à mon sens, le seul interet potentiel de l'article aurait pu etre une reflexion sur l'interet ou non de publier l'algorithme, mais serieusement, si l'on reflechit 30s, publier l'algorithme c'est accepter de prendre le risque de devoir mettre en faillite google.

Quel est le lien entre la publication et ce risque de mise en faillite de google ?

il est simple :
un referenceur apres plusieurs mois d'analyse de l'algorithme, arrive a detourner l'algorithme de google, et fait apparaitre des liens pour son site de vente de Viagra quelque soit le mot clé utlisé dans sa recherche.

si google ne trouve pas une parade rapide (quelques heures), le moteur de recherche sera totalement decredibilisé, et plus personne n'utilisera le moteur de google, donc google connaitra la nécessité d'une mise en faillite.

Changer un algortihme de ce genre, ne se fait pas en quelques heures, c'est plusieurs mois de travail. l'expérience le prouve car il faut plusieurs mois pour que google detecte ce genre d'attaque encore aujourd'hui.

Aujourd'hui, l'open source ne peut pas fournir de garantie contre ce genre de risque là ou le closed-source offre une garantie :
celle que l'attaqant doivent tout refaire, tout réapprendre à chaque changement car il n'en a pas la connaissance.
La boite noire est la meilleur garantie d'une certaine tranquilité pour les 99,99999% des personnes qui utilise google pour autre chose qu'améliorer son propre referencement ( le pouilleme restant etant ceux qui seront satisfait par du viagra pour tous les mots clés ).

L'on peut me retorquer que sur l'argument du closed source pour éviter les détournement, l'article répond fort justement en disant : "Le Droit s'adapte pour prendre en compte l'évolution de la délinquance et personne n'en déduit que la loi doit être secrète." avec comme seul exemple, le google bombing. mais encore recemment, nous avons pu voir que certaines sociétés ont été victime de google bombing parce que leurs activités déplaisent à certains internautes.

Sur la problematique de moyen, je tiens à rappeler qu'un nom de domaine s'achete à moins de 10 euros l'unité, et qu'un hébegement mutualisé est souvent offert avec chaque domaine, et qu'un serveur dédié coute moins de 20 ¤/mois chez certains hébergeurs.

Apres, il y a une une erreur non-négligeable qui est commise, le droit est public et c'est ce qui garantie l'équité de chacun (dans une certaine mesure du moins). un algo de ce type pourrait etre public si il n'y a aucun moyen et/ou interet à le contourner.

la loi s'adapte lentement, mais s'adapte, et surtout il y a le juge qui est createur et garant du droit à chaque fois qu'un tier lui demande de prendre position.

La comparaison d'une chose reposant sur une propre faculté au vivant (pour certains de l'homme ) celle de conscience et d'independance d'etre, à une chose fonctionnant comme un automate-presse-puré est ... comment dire ... hum ... mais, si l'automate presse-puré avait une conscience, je pense qu'elle serait flatté :)( et d'un autre coté, un automate presse-puré avec une conscience ... pour moi, c'est un être vivant, mais c'est un autre débat ).

toujours est il que cette possible garantie d'équité ne répond pas à la question importante :
quelle garantie peut apporter le libre sur le fait que des qu'un algo critique est rendu public .cela facilite d'autant plus la pollution electronique ?

Cet algorithme est utilisé par des centaines de millions de personnes, et peut etre détourné de sa finalité, par un individu qui ne publiera jamais sa technique garantir la perenité de son interet/placement/investissement/operation.

Est ce que cet algorithme peut il etre rendu public ?

Oui, si cet algo est formellement inviolable. Or, l'experience prouve le contraire, puisque google le modifie sans cesse.

Oui, si il peut etre modifié rapidement sans nécessité de truquer la base de données ou de reconstruire l'integralité du savoir existant. Encore une fois, il est connu des referenceurs que google recalcule regulierement "from scratch" l'integralité de la base et que la convergence de l'algorithme est de l'ordre de plusieurs semaines voire quelques mois.

Dans un algorithme de chiffrement, l'algorithme rendu public est rendu public de maniere incomplete : il manque les clés utilisés.

A mon sens, rendre public cet algorithme, est comme si un admin libriste rendait public le mot de passe root de ses serveurs pour etre "open" jusqu'au bout.

Ma conclusion, google faisant de l'open-source sur certains dossiers, n'a pas de raisons de publier cet algo & son code source parce que :
- sa publication affaiblira la pertinence des resultats ( resultat deja connu, au travers du spamdex, googlebombing qui deviendrait un jeu d'enfants )
- sa publication ne garantira à aucun moment ni à terme que l'algorithme pourra etre rendu insensible aux corruptions
- sa publication ne garantira aucune amélioration de reactivité ou reduction de couts, par contre, cela a plus de risque d'augmenter les coûts

Cette reflexion sur l'interet de publier l'algorithme de google, s'applique sans mal à tout projet de publication d'un algorithme de recherche, si cet algorithme est utilisé par un moteur de recherche "grand public". Cela implique, que un moteur de recherche libre est soit condamné à n'être utilisé que par 3 personnes, soit à devenir une usine à SPAMdex et donc à être tellement pollué que plus personne ne l'utilisera. La seule possibilité d'un moteur de recherche libre est plus de l'ordre d'un annuaire libre qui connaitrait un engoument equivalent que wikipédia ... mais wikipédia n'est il pas déjà un peu cela ?

  • [^]Re: de l'inutilité d'un moteur de recherche libre

    Posté par patrick_g (page perso, ) le 26/02/2007 à 23:30. (lien). Évalué à 2.

    Par curiosité est-ce que tu est partisan du fait que Linden Lab ouvre le code des serveurs de Second Life ?
    Après tout si ils ouvrent le code alors tout le mode pourra étudier le source et trouver les failles pour en profiter injustement (équivalent d'étudier l'algo de Google pour en profiter de façon indue).

    Je reconnais la force de certains de tes arguments mais je ne peux m'empêcher de faire confiance à l'influence stabilisatrice du code libre. Certes cela peut tanguer au début quand le code est effectivement pleins de trous (ou l'algo susceptible de pleins de détournements) mais à long terme je persiste à penser que c'est plus sain.

    Le code ou l'algo évolue en toute transparence pour éviter les failles et les détournements...et le public (toi, moi, tous) nous avons l'assurance que tout se déroule en toute honnêteté.

    Quelle assurance ais-je que Google ne dévie pas subtilement les résultats des recherches des internautes à l'heure actuelle ? J'ai juste la parole de l'entreprise et je j'aimerais mieux, à l'instar des préconisations de Stallman, que le source soit exposé au yeux de tous pour que le soupçon ne s'installe pas.

    • [^]Re: de l'inutilité d'un moteur de recherche libre

      Posté par Moun's (page perso, ) le 27/02/2007 à 02:33. (lien). Évalué à 5.

      je comprend ce que tu essaie de dire, mais tu confonds Second Life et l'algo de google.

      Second Life est proche d'un logiciel de type MMORPG (meme si ce n'est pas un MMORPG d'apres ce que j'en sais).

      Liberer le code source du client "Second Life", n'aura pas d'influence majeur sur le comportement des joueurs, puisque :
      1. le client depend fortement du serveur
      2. si tu monte ton propre serveur ou tu es dieu, tu n'auras que 3/4 joueurs pas 3/4 000 000 de joueurs puisque tu ne seras pas sur le serveur principal
      3. quand bien meme tu arrives a faire certains trucs l33ts avec ton client, cela n'aura quasiment aucune portée dans le jeu
      4. avec le code source du client que tu utilise, tu n'auras aucune influence sur le client des autres

      Par contre, sur un moteur de recherche libre, il te faudra te prémunir contre toute personne qui ayant trouvé une faille dans le source ou l'algo du moteur, et en profite sans rien publier assurant ainsi la pérénite de la promotion de son site de vente de viagra.

      Si le "profiteur" est malin il s'assurera une presence discrete mais pertinente pour eviter de rendre trop visible sa pollution. Par contre, statistiquement, il y aura un jour ou l'autre, des gros boulets qui rendront la faille trop visible en bourrinant comme des gorets pour etre ostensiblement présent.

      Imagine que le probleme n'est pas au niveau de l'algo mais du code, évidemment en quelques heures, cela peut etre reglé.

      Mais ici, l'on parle d'algorithme pas de maniere de coder un algorithme : cela implique que le meme algorithme est un sujet de R&D ... donc si une personne trouve une faille dans l'algorithme, les developpeurs se retrouverent dans les memes conditions que Sir Andrew Wiles en 1993 quand il fut forcé de retarder sa publication d'un an (c'est à titre d'exemple, il me semble qu'il y a aucun rapport entre le grand theoreme de Fermat et les moteurs de recherche ;) ).

      Et 1 an de non-présence d'un site internet pour cause de réécriture de l'algorithme, cela s'appelle la mort d'un site.
      Quand bien meme, l'algorithme serait modifié rapidement, il y a comme contrainte supplémentaire, la reconstruction de la base et donc potentiellement la réindexation de l'ensemble des sites antérieurement connu.

      Enfin, quand on sait qu'aujourd'hui avec ses centaines de milliers de serveurs, l'algorithme de google converge en plus d'un mois ... ou est ce qu'un moteur open-source trouvera les liquidité pour se payer pareil redondance et puissance de calcul ? A moins que sa composante open-source ne soit qu'un leure pour s'acoquiner avec des libristes incapables d'en voir son absurdité.

      Bien entendu, si un moteur de recherche arrive à mettre au point un algorithme pertinant et efficace, je pense que doucement une migration se ferait sentir vers celui ci dans les statistiques de l'ensemble des sites ... mais a part une constance assez provoquante et une pertinance des resultats hors mots-clés concurrencielles de google, personne ne se présente à l'horizon.

      Pour faire une apparté, je rappelle que les statistiques de Linux restent désesperantes coté internaute pourtant, chacun ici utilise linux regulièrement et en tire satisfaction, et tout le monde est d'accord qu'il manque encore des choses à linux pour qu'il progresse auprès du grand public.

      L'algorithme formellement inattaquable ne semble pas encore connu du grand public, donc l'hypothese du moteur open-source aura difficilement sa place.

      • [^]Re: de l'inutilité d'un moteur de recherche libre

        Posté par nats (Jabber id, page perso, ) le 27/02/2007 à 15:51. (lien). Évalué à 4.

        J'ai lu les divers commentaires et je ne pense pas l'avoir vu posté avant mais bon si je me trompe frapper moi bien fort ^^
        La première raison de l'esprit closed-source de cet algo n'est peut-être tout simplement pas technique, mais économique...
        Si Google rend public cet algorithme les concurrents pourront le reprendre et ainsi profiter de la recherche de google (je ne dis pas que c''est mal, je constate). Or le principal revenu de google est la pub. Pub qu'il vend grâce à la "pertinence reconnue" de ses recherches. Si ses concurrents arrivent au même niveau, voir le dépasse...
        Et comme dit plus haut le temps d'adaptation d'un algorithme destiné au traitement d'une telle masse de donnée est extrêmement long. Donc Google ne serait plus en mesure de conserver cette avance (il faut le rappeler c'est une société coté en bourse... Avec tout ce que cela implique.) Et contrairement au LL Google ne vit pas de ses programmes mais de sa capacité à gérer des données, il n'y a donc pas de service au dessus de celui-là qui permettrait de rattraper les pertes. (Cas avec les distrib payantes de nulix ^^ Où les sociétés comptent énormément sur le "SAV").

        --
        On vous ment! Mais pas moi...