Liens connexes

Dépêche modérée par

Dépêche éditée par

: Google et PageRank... L'avenir passe par le libre?

Posté par tiwaz (). Modéré le 26 février 2007.
0
Google doit une grande partie de son succès à l'algorithme du PageRank utilisé. Il peut être intéressant pour ceux qui sont novices en la matière de connaître son fonctionnement, ne serais-ce que pour une question de culture générale.

Le site Interstices propose un très bon article de vulgarisation, qui va plus loin que la simple analyse du moteur de recherche californien, en posant un certains nombre de questions sur le fonctionnement de l'entreprise derrière ce dernier. Entre les interrogations sur la valeur réelle du nombre de pages indexées, ou encore sur certains résultats étranges du moteur, tout comme sur les problèmes même de l'implémentation du PageRanking (est-ce vraiment lui qui est utilisé ?), l'article permet de mettre en perspective certains points intéressants.

En conclusion, l'article espère que le marché forcera plus de transparence pour les modèles utilisés, estimant que l'utilisateur préfère comprendre le classement dans un moteur de recherche plutôt que de faire confiance à une boite noire. Dans le cas contraire, un totalitarisme du marché des moteurs de recherche n'est pas à exclure...

> Lire la suite (22 commentaires, moyenne: 3,1).   [dépêche : 1165 caractères]

L'article, intéressant pour qui n'est pas au fait des évolutions des moteurs de recherche, propose un bref rappel sur ces derniers, et la difficulté de rester au fait des évolutions des sites. Ensuite, nous avons une partie qui se centre plus particulièrement sur les méthodes utilisées par Google, et son fameux PageRank.
De là découle une interrogation qui revient souvent de la part des détracteurs de Google, c'est à dire l'objectivité des résultats et leur pertinence. D'autant plus que l'article se permet de faire de nombreuses hypothèses, tout en soulevant un nombre important de problèmes du moteur de recherche.
Entre objectivité et théorie du complot, l'article s'interroge sur la véritable méthode utilisé par Google, et son secret de type boite noire, en remettant en question le choix de Google d'être discret sur son fonctionnement.
En conclusion, cela rappelle un peu la guerre entre le libre et le propriétaire, où Richard Stallman explique que le Libre est obligé de gagner, parce qu'il est intrinsèquement plus éthique et meilleur. Avec une option dans le cas présent, l'implication de l'État dans le cas où l'ouverture ne triomphe pas.

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

Totalitarisme?

Posté par eon2004 (Jabber id, page perso, ) le 26/02/2007 à 06:32. (lien). Évalué à 4.

A la différence de windows, changer de moteur de recherche est des plus facile et n'a pas vraiment de conséquence sur son utilisation quotidienne. Si les résultats de Google te plaisent pas, qu'est ce qui t'empêche d'en prendre un autre? En quoi, la concurrence entre moteurs ne peut s'appliquer? Bref, je vois pas très bien le parallèle avec les logiciels proprios (à part qu'on ne sait pas comment ça fonctionne)

Bien sur la concurrence n'existe que si Google ne se rend pas indispensable.

.

Posté par ultimat () le 26/02/2007 à 09:00. (lien). Évalué à 4.

L'article est intetressant, rien que pour le côté scientifique du calcul théorique du pagerank.

Après sur la question du fond "Est-ce que Google doit donner le vrai algorithme de son moteur ?" :

* d'un côté l'article dit : " Chacun a le droit de savoir selon quelles lois on le juge", c'est pas faux. Google est indéniablement le moteur le plus utilisé. Ne pas (ou mal) apparaître sur google devient un sacré problème aujourd'hui pour les sociétés.

* d'un autre côté : qu'est ce qui force une société privé à expliquer comment elle fait des calculs. Argument "massue" : et l'argus comment il calcul le prix des véhicules ?

A mon avis, il faut profiter des autres moteurs de recherche pendant qu'il sont encore là.

Donner un éclairage ne veut pas dire assombrir..

Posté par url () le 26/02/2007 à 10:05. (lien). Évalué à 0.

.. pourquoi pas en introduction du lien vers l'article parler technique à ceux que ça intéresse (pros et amateurs donc). On dira alors que le principe du PageRank est largement dépassé en SEO. Donc ça commence mal.

Ensuite, en règle générale, si les professionnel veulent comprendre, les utilisateurs veulent : utiliser. Il faut que ça fonctionne sinon je change de crèmerie.

Enfin la chute se casse la gueule ;) ... totalitarisme ! pourquoi pas Staline ou chambre à gaz pendant qu'on y est ? La liberté d'entreprendre est à l'opposée du totalitarisme et la libre concurrence que les moteurs se livrent avec une saine critique de Google depuis disons le lancement de Gmail nous prouve qu'elle existe.

divulgation ou pas

Posté par Laurent J (page perso, ) le 26/02/2007 à 10:16. (lien). Évalué à 6.

Je pense qu'ils ne divulgent pas les détails sur leurs algo, pour au moins une raison : rendre difficile le travail des "tricheurs" en matière de référencement. En effet, plus tu sais comment leurs algos fonctionnent, mieux tu pourras "optimiser" tes pages pour que les résultats de recherche soient en ta faveur (et pas seulement sur les requêtes qui ont un réèl rapport avec ton site). Bref, polluer les résultats quoi...

Wikisari : un futur moteur libre

Posté par Youssef Oualmakran (page perso, ) le 26/02/2007 à 13:57. (lien). Évalué à 5.

Jimmy Wales le cofondateur de Wikipedia a lancé un projet de moteur de recherche libre. Il veut que tout soit libre : l'algorithme de recherche, la base de donnée, le logiciel. [1]

Pour l'instant aucune décision ferme concernant la manière dont le moteur de recherche sera implémenté. Jimmy Wales recherche des personnes pour apporter des idées et réaliser des testes sur des serveurs.

Pour en discuter, aller sur la liste de discussion. [2]


[1] http://search.wikia.com/wiki/Search_Wikia
[2] http://lists.wikia.com/pipermail/search-l/2007-February/0002(...)

de l'inutilité d'un moteur de recherche libre

Posté par Moun's (page perso, ) le 26/02/2007 à 17:13. (lien). Évalué à 10.

Apres moult lectures de l'articles, et quelques recherches sur l'auteur, je suis deçu par l'absence flagrante de qualité de cet article.

l'article me semble etre une tartine rance issu d'un fond de confiture moisi. le propos est dur, je le reconnais, peut etre meme un peu exagéré, mais elle repose sur certaines observations que je fais sur le texte.

Qu'un chercheur en mathematique fasse un article sur un algorithme d'un moteur de recherche et se pose sur le secret l'entourant, ne doit pas l'empecher de faire des recherches annexes, sur les personnes utilisant le moteur de recherche. Pourtant, cette personne ignore une grande partie, voire la plus grande partie des clients des moteurs de recherches : les webmasters & autres propriétaires de sites.

L'utilisateur premier aurait du être l'internaute, le gentil surfeur, la menagere de plus de 50 ans, ... mais la réalité est tout autre, le premier utilisateur de moteur de recherche est celui qui veut voir son site etre dans les 10 premiers liens de google sur certains mots clés.

L'article a été publié en novembre 2005, je présume qu'il n'a pas été écrit en 98 ou 99 mais plus probablement un peu avant novembre 2005. Durant la même année, j'ai eu pour mission de referencer certains sites, j'ai eu à me renseigner sur diverses techniques pour améliorer le réferencement sur google, yahoo, msn, et d'autres.

Le premier point qui me chiffone est celui ci : l'auteur ne semble pas savoir ce qu'est le cloaking , le duplicate-content , les PR10 locaux, le PR spoofing, et tant d'autres techniques qui permettent d'etre classé dans les 10 premiers liens ...

Dès que google a connu un peu de notoriété, le fameux article de Brin et Page fut publié, décortiqué, analysé, torturé pour comprendre un peu la mécanique sous-jacente ...

Et pour faire un parallèle avec la cryptographie, Google a subit des attaques d'un nouveau genre à son encontre : des attaques de referencement.

Google a donc modifié son algorithme au fil du temps car certaines de ces attaques nuisaient à la qualité des résultats.

un exemple tres simple et un des premiers si je me souviens bien :
si l'on regarde l'algo lui meme, on constate que si on reference X pages contenant une dizaine de liens vers diverses pages qui elle-meme pointent sur leur source et sur une destination unique, qui repointe sur certaines source de source, on peut creer des nébuleuse de PR 10 sans avoir aucune notoriété reelle.

Pourquoi ? tout simplement par ce que l'algorithme manipule un graphe qui est en fait une foret de graphe, c'est a dire que ce graphe représentant internet peut etre coupé en sous graphe sans couper aucun lien existant.

Maintenant, pour clarifier un point, cette attaque repose sur une contrainte budgetaire "avoir un portefeuille de domaine suffisament important" donc ce n'est pas avec 4 ou 10 domaines que l'on peut monter une attaque^W un referencement de la sorte :p

Google a donc changer son algo pour gerer ce type de problemes.

apres on trouve le tres classique SPAMlog :
c'est la meme IP qui balance plusieurs milliers de requetes sur certaines pages d'un site avec differents referers. si ce site publie ses statistiques web, le site fourni une page de referencement permettant de falsifier le PR d'un site.

Encore une fois, Google a cherché encore à contrer ce genre de choses.

il y a les liens "no-follow" et d'autres solutions proposés qui ont un impact au niveau meme de l'algo utilisé par google.

donc, l'algo d'origine quelqu'il soit, n'est plus le meme depuis des années :D ... et cette information et le pourquoi n'est meme pas evoqué dans l'article.

donc à mon sens, le seul interet potentiel de l'article aurait pu etre une reflexion sur l'interet ou non de publier l'algorithme, mais serieusement, si l'on reflechit 30s, publier l'algorithme c'est accepter de prendre le risque de devoir mettre en faillite google.

Quel est le lien entre la publication et ce risque de mise en faillite de google ?

il est simple :
un referenceur apres plusieurs mois d'analyse de l'algorithme, arrive a detourner l'algorithme de google, et fait apparaitre des liens pour son site de vente de Viagra quelque soit le mot clé utlisé dans sa recherche.

si google ne trouve pas une parade rapide (quelques heures), le moteur de recherche sera totalement decredibilisé, et plus personne n'utilisera le moteur de google, donc google connaitra la nécessité d'une mise en faillite.

Changer un algortihme de ce genre, ne se fait pas en quelques heures, c'est plusieurs mois de travail. l'expérience le prouve car il faut plusieurs mois pour que google detecte ce genre d'attaque encore aujourd'hui.

Aujourd'hui, l'open source ne peut pas fournir de garantie contre ce genre de risque là ou le closed-source offre une garantie :
celle que l'attaqant doivent tout refaire, tout réapprendre à chaque changement car il n'en a pas la connaissance.
La boite noire est la meilleur garantie d'une certaine tranquilité pour les 99,99999% des personnes qui utilise google pour autre chose qu'améliorer son propre referencement ( le pouilleme restant etant ceux qui seront satisfait par du viagra pour tous les mots clés ).

L'on peut me retorquer que sur l'argument du closed source pour éviter les détournement, l'article répond fort justement en disant : "Le Droit s'adapte pour prendre en compte l'évolution de la délinquance et personne n'en déduit que la loi doit être secrète." avec comme seul exemple, le google bombing. mais encore recemment, nous avons pu voir que certaines sociétés ont été victime de google bombing parce que leurs activités déplaisent à certains internautes.

Sur la problematique de moyen, je tiens à rappeler qu'un nom de domaine s'achete à moins de 10 euros l'unité, et qu'un hébegement mutualisé est souvent offert avec chaque domaine, et qu'un serveur dédié coute moins de 20 ¤/mois chez certains hébergeurs.

Apres, il y a une une erreur non-négligeable qui est commise, le droit est public et c'est ce qui garantie l'équité de chacun (dans une certaine mesure du moins). un algo de ce type pourrait etre public si il n'y a aucun moyen et/ou interet à le contourner.

la loi s'adapte lentement, mais s'adapte, et surtout il y a le juge qui est createur et garant du droit à chaque fois qu'un tier lui demande de prendre position.

La comparaison d'une chose reposant sur une propre faculté au vivant (pour certains de l'homme ) celle de conscience et d'independance d'etre, à une chose fonctionnant comme un automate-presse-puré est ... comment dire ... hum ... mais, si l'automate presse-puré avait une conscience, je pense qu'elle serait flatté :)( et d'un autre coté, un automate presse-puré avec une conscience ... pour moi, c'est un être vivant, mais c'est un autre débat ).

toujours est il que cette possible garantie d'équité ne répond pas à la question importante :
quelle garantie peut apporter le libre sur le fait que des qu'un algo critique est rendu public .cela facilite d'autant plus la pollution electronique ?

Cet algorithme est utilisé par des centaines de millions de personnes, et peut etre détourné de sa finalité, par un individu qui ne publiera jamais sa technique garantir la perenité de son interet/placement/investissement/operation.

Est ce que cet algorithme peut il etre rendu public ?

Oui, si cet algo est formellement inviolable. Or, l'experience prouve le contraire, puisque google le modifie sans cesse.

Oui, si il peut etre modifié rapidement sans nécessité de truquer la base de données ou de reconstruire l'integralité du savoir existant. Encore une fois, il est connu des referenceurs que google recalcule regulierement "from scratch" l'integralité de la base et que la convergence de l'algorithme est de l'ordre de plusieurs semaines voire quelques mois.

Dans un algorithme de chiffrement, l'algorithme rendu public est rendu public de maniere incomplete : il manque les clés utilisés.

A mon sens, rendre public cet algorithme, est comme si un admin libriste rendait public le mot de passe root de ses serveurs pour etre "open" jusqu'au bout.

Ma conclusion, google faisant de l'open-source sur certains dossiers, n'a pas de raisons de publier cet algo & son code source parce que :
- sa publication affaiblira la pertinence des resultats ( resultat deja connu, au travers du spamdex, googlebombing qui deviendrait un jeu d'enfants )
- sa publication ne garantira à aucun moment ni à terme que l'algorithme pourra etre rendu insensible aux corruptions
- sa publication ne garantira aucune amélioration de reactivité ou reduction de couts, par contre, cela a plus de risque d'augmenter les coûts

Cette reflexion sur l'interet de publier l'algorithme de google, s'applique sans mal à tout projet de publication d'un algorithme de recherche, si cet algorithme est utilisé par un moteur de recherche "grand public". Cela implique, que un moteur de recherche libre est soit condamné à n'être utilisé que par 3 personnes, soit à devenir une usine à SPAMdex et donc à être tellement pollué que plus personne ne l'utilisera. La seule possibilité d'un moteur de recherche libre est plus de l'ordre d'un annuaire libre qui connaitrait un engoument equivalent que wikipédia ... mais wikipédia n'est il pas déjà un peu cela ?

Web sémantique

Posté par Jehan (page perso, ) le 26/02/2007 à 19:10. (lien). Évalué à 1.

Salut,

bon l'article est un peu vieux apparemment donc il est peut-être normal que le gars n'ait pas approfondi ce bouleversement dans les manières de penser le web. Mais, bien que je ne me tiens pas particulièrement au courant des avancées dans le domaine de la recherche massive, j'ai cru comprendre que le web sémantique commence à prendre de l'importance et que tous les labos de recherche planche là-dessus, sur les moyens d'améliorer la pertinence de recherche web en fonction du contenu et surtout "de son sens".

Le gars évoque un peu ces points en survol sur la partie sur le contenu:

[quote]
Une autre conséquence importante de la définition de PageRank est que le contenu des pages, à l'exception des liens qui y apparaissent, n'a aucune importance pour sa notation et que cette notation est globale
...
[/quote]

Mais ça m'a vraiment déçu qu'il n'approfondisse pas plus ça, qui est ce qui est vraiment intéressant dans l'avenir de la recherche sur le web, je trouve.

Clairement il est clair que la méthode selon laquelle il suffit de trouver des mots recherchés répartis dans une page (et de préférence proches), couplée au pagerank, est insuffisante.
Le web sémantique, ça sert à organiser, et surtout donner un sens aux partis d'un texte web. Ainsi si on cherche des infos sur un gars dont on donne le nom au moteur de recherche, il y a fort à parier que si le nom du gars est dans un titre du texte, il y a des chances pr que ce dernier texte soit plus pertinent sur cette personne que dans un autre où on trouve le nom mélangé à d'autres noms dans un paragraphe par ex.
C'est pourquoi le web sémantique, ça consiste par exemple à donner de la pertinence si on trouve le nom entre des balises hx (et h1 plus pertinent que h2, plus que h3, etc.) que dans une balise p.

De même, ça arrive souvent qu'on recherche l'auteur d'une citation (genre on l'a vu sur un site mais le gars a pas précisé son auteur), ben le web sémantique permet de préciser que ce qu'on cherche est une citation et il va donner priorité à des pages où on trouve les mots cherchés entre des balises "quote".

Au final on devrait même être capable de préciser en recherche avancés nos critères, genre "une page avec tel mot, mais je veux qu'il soit dans un titre de section au moins", etc.

Enfin voilà, pour moi c'est ce genre de truc l'avenir de la recherche web. Si le moteur de recherche a le moyen de connaître le "sens" d'une page, il peut donner des résultats bien plus pertinents.
Evidemment ça implique de devoir bien structurer ses pages (utiliser donc les bonnes balises, séparer fond/forme avec css, etc.), donc un webmaster utilisant simplement les bonnes normes w3c devrait déjà avoir un avantage sur les autres. ;-)

Sinon, je trouve le gars parfois un peu dur avec Google, surtout sur la fin où on dirait qu'il a une dent contre Google. Ceci dit, sur le fond et idéalement, il a pas toujours tort et c'est sûr que si on avait à dispo un moteur de recherche aussi performant (ou presque) et au développement entièrement transparent et Libre, je dirais pas non et serai le premier à me jeter dessus.

Je pense aussi qu'un système qui fait intervenir l'humain pour "noter" la pertinence des sites, et en plus en fonction de "tag" (les mots clés html un peu) en particulier pour dire que c'est en particulier pertinent sur tel ou tel sujet, ça peut rendre bien. Ca permettrait de faire descendre "manuellement" aux oubliettes du web un mauvais site qui aurait une trop bonne position dans le moteur de recherche ou au contraire de pousser au cul un site de qualité mais mal placé.

Bon ça pose qques problèmes et faudra avoir des systèmes pour empêcher les abus. Par ex, des "commerces" de placement pourrait se créer (enfin... ça existe déjà ceci dit, mais là ça crée de nvelles possibilités) avec des gars qui créent des bots qui vont voter en continu pr des sites. Donc faut des scripts pr empêcher les votes multiples venant d'un même ip ou bien qui puisse reconnaître des bots (sans trucs illisibles à recopier par contre!).
Et pis aussi, un bon site mal placé, ça peut aussi être dû au fait qu'il soit mal foutu, codé avec les pieds. Mais qd le contenu est intéressant qd même, la question à se poser reste de savoir si ça vaut le coup de l'aider au référencement, ce qui risque de conforter le webmaster dans la médiocrité d'un code mal écrit s'il voit que ça l'empêche pas de référencer bien.

Enfin bon, y a plein de questions à se poser sur la recherche web et le référencement, et je crois qu'il y a plusieurs chemins très intéressants (à essayer au moins pour certains qui sont peut-être de fausses bonnes idées) à l'heure actuelle. Je trouve vraiment que cet article ne va pas au fond des vraies choses intéressantes dans le monde et l'avenir du référencement web. Il reste très superficiel avec un peu trop de véhémence à l'égard de Google à mon avis.
Bye.

Revenir en haut de page