Liens connexes

Dépêche modérée par

: Google contre la pollution des sites web

Posté par Boa Treize (page perso, ). Modéré le 20 janvier 2005.
0
La pollution des espaces publics des sites web, notamment les commentaires des blogs et les pages des wikis, s'est fortement accrue en 2004. Le but des pollueurs est d'améliorer le classement de leurs sites douteux en créant des liens vers ceux-ci, et en profitant ainsi de la popularité du site qu'ils polluent.

Des méthodes ont été mises au point par les communautés concernées, allant du fastidieux nettoyage des commentaires et pages concernés à des listes noires partagées, afin de bloquer le phénomène à sa source. Un combat sans fin toutefois, tant que les pollueurs ont suffisamment à y gagner, c'est à dire un bon classement dans les moteurs de recherche.

L'annonce de Google, mardi dernier, va peut-être mettre fin à ce problème. En effet, Google permet maintenant aux gestionnaires de sites web d'indiquer que certains liens doivent être ignorés dans le calcul du PageRank, qui est à l'origine de toute cette pollution. MSN Search et Yahoo! Search ainsi qu'une dizaine d'auteurs de moteurs de blog ont annoncé soutenir et participer à cette initiative.

> Lire la suite (119 commentaires, moyenne: 4).   [dépêche : 3510 caractères]

Un peu de perspective

La manipulation des résultats donnés par les moteurs de recherche n'a rien de nouveau, et vu les enjeux, n'est pas près de disparaître. Qu'il s'agisse d'une compagnie qui souhaite se placer devant ses concurrents ou d'un groupe de gens qui souhaite faire « disparaître » ses opposants, pour de mauvaises ou de bonnes raisons, les méthodes de classement des principaux moteurs de recherche seront toujours analysées et cette connaissance utilisée afin « d'optimiser » le classement des sites.

Avant l'arrivée de Google, les moteurs de recherche utilisaient essentiellement le contenu des pages et en particulier les mots-clés listés dans les balises meta de celles-ci. Le mécanisme était trivial, et les auteurs de site ne se privaient pas d'associer à leur page toutes sortes de mots-clés populaires et sans aucun rapport avec celle-ci, voire de remplir les pages de textes blancs sur fond blanc afin que leur site apparaisse bien classé en réponse à toutes sortes de requêtes.

Google et son algorithme PageRank ont mis fin pour l'essentiel à ces méthodes. En mettant l'accent sur les liens entre sites plus que sur le contenu de ceux-ci, Google a pu déterminer le degré de popularité des pages, indépendamment de la volonté des propriétaires des sites. Ceux-ci ont toutefois fini par s'adapter à la nouvelle donne, en créant des réseaux de sites pointant les uns vers les autres, ou en remplissant des sites populaires avec des liens vers leurs sites. C'est cette dernière pratique que Google entend contrer.

La proposition de Google

Un site contient, en gros, deux types de liens : ceux crées par le gestionnaire du site, et ceux crées par ses visiteurs dans les divers endroits où ils peuvent s'exprimer (livre d'or, forums, commentaires, pages de wiki, etc.). Ce sont ces derniers qui sont frappés par la pollution, et Google propose aux gestionnaires de sites, s'ils le souhaitent, que tout ou partie des liens de ces zones soient ignorés lors du calcul du PageRank. Ainsi, les pollueurs perdent leur motivation essentielle -- accroître leur classement -- et devraient cesser d'utiliser de telles méthodes.

Comment ça marche ?

Quand Google voit un lien hypertexte contenant l'attribut rel="nofollow", il ne le prend pas en compte pour le calcul du PageRank. C'est au gestionnaire du site de s'assurer, au moyen de son langage de programmation favori, que tous les liens saisis par les utilisateurs contiennent cet attribut.

Google suggère de traiter de la sorte tous les endroits où des liens peuvent être créés, directement ou non, par des utilisateurs. On pense notamment, outre les commentaires et autres éditions de pages, aux listes de referrer que certains outils de statistiques rendent disponibles.

MSN Search et Yahoo! Search ont annoncé soutenir cette initiative en modifiant leurs propres moteurs de recherche pour qu'ils interprètent cet attribut de la même manière. Une dizaine d'auteurs de moteurs de blog participent à cette initiative, et devraient présenter prochainement des versions de leurs programmes qui incluent automatiquement cet attribut aux endroits appropriés.

Et à l'avenir ?

Le succès de cette initiative dépend bien sûr de son degré d'adoption. Il va probablement falloir quelques mois avant que les pollueurs ne comprennent l'inutilité de leurs actions, et on peut s'attendre ensuite à les voir se concentrer sur les sites qui n'ont pas encore intégré cette protection.

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

Très bonne initiative

Posté par Xam () le 20/01/2005 à 12:42. (lien). Évalué à 10.

C'est là une très bonne solution, et les moteurs de blogs francophones, tels DotClear, proposent déjà un patch.

Tremblez, spammeurs...

--
Triceratops do not take drugs (any longer)

DotClear

Posté par Infernal Quack (Jabber id, page perso, ) le 20/01/2005 à 12:44. (lien). Évalué à 10.

A noter que le patch pour dotclear est déjà disponible ici : http://www.neokraft.net/blog/2005/01/19/569-dotclear-et-le-nofollow(...)

Validité XHTML

Posté par Alban Crequy (Jabber id, page perso, ) le 20/01/2005 à 12:48. (lien). Évalué à 10.

En ajoutant l'attribut rel="nofollow", est-ce que nos pages vont rester valides vis à vis des standards du W3C?

oui mais

Posté par PloufPlouf (Jabber id, page perso, ) le 20/01/2005 à 12:49. (lien). Évalué à 6.

je suis perplexe...

je ne lis aucun des 100 ou 200 spams que je recois chaque jour (oui je sais je suis gâté) mais j'en recois toujours...

ignorer les cons, les rend pas moins cons

et linuxfr?

Posté par Alban Crequy (Jabber id, page perso, ) le 20/01/2005 à 13:03. (lien). Évalué à 6.

Est-ce que les commentaires de linuxfr vont subir le nofollow?

Bonne méthode?

Posté par arnaudus () le 20/01/2005 à 13:36. (lien). Évalué à 10.

Je ne sais pas, je ne suis pas persuadé que Google ait choisi la bonne méthode...

1) la fiabilité du moteur de recherche repose désormais sur le respect d'une norme par les sites eux-mêmes. Je trouve ça très dangereux, puisque du coup, ne pas ajouter la balise va proportionnellement augmenter le poids des sites "douteux".

2) même si la "faille de sécurité" est bouchée, ça se fait au détriment de la qualité des recherches, puisque de nombreux liens pertinents (peut être plus que les liens non pertinents d'ailleurs) vont être ignorés ; or, les blogs et les wiki sont les sites les plus rapides à réagir à l'actualité. Ca ne va pas améliorer la nervosité de google, déja pas formidable...

3) il existe maintenant des très bon filtres bayesiens pour filtrer les spams, j'imagine que le même système pourrait être utilisé à plus grande échelle pour filtrer les liens. C'est évolutif, et ça permet d'anticiper les autres astuces dont feront à coup sûr preuve les petits malins dans les années qui viennent.

Bref, à mes yeux, la solution proposée est "petit bras", pas très glorieuse, et très facilement contournable. Si la concurrence propose mieux, google va vite être redépassé...

[+] Quel rapport avec la choucroute

Posté par mvdc () le 20/01/2005 à 13:40. (lien). Évalué à -10.

Malgré la qualité de l'article, quelle est le rapport à cet article avec Linux et/ou le libre ?

Ce n'est pas une solution contre le spam !

Posté par Maxime Ritter (page perso, ) le 20/01/2005 à 13:52. (lien). Évalué à 5.

Un proverbe dit que ce que les spammeurs n’ont pas encore détruit, ce sont les solutions anti-spams de mauvaise qualité qui le détruiront. On nage en plein dedans.

Et là, je doit dire que je viens de lire la plus belle connerie du monde. Ne pas augmenter le pagerank des spammers ? Mais je n’ai jamais vu un seul spammeur s’intéresser à son pagerank ! Toute personne qui étudie un peu le fonctionnement des spammeurs sait parfaitement que les domaines utilisés pour spammer ne restent pas en ligne plus de 15 jours, car justement les anti-spams ou les FAI les détectent. Je n’ai pas encore été spammé dans les commentaires, mais les spammeurs par referer qui ont tenté d’agir chez moi ont tous vu leur site web fermer dans les jours qui ont suivi. Aucun spammeur n’agit dans le but d’augmenter son pagerank. Ceux qui vraiment voudraient augmenter leurs pageranks seraient bien trop aisemment détectés par SURBL : http://www.surbl.org/(...) .

Ils spamment dans le but d’augmenter leurs visites, en espérant profiter des lecteurs du blog. Et non pas pour leurs pageranks. Qui part définition ne peut être élevé, puisque les sites ne restent pas en ligne longtemps. Et même à supposer que certains spammeurs font cela pour augmenter le pagerank en attendant que le site soit détruit, ils profiteront tout de même des visiteurs des blogs, et cela leur suffira pour continuer à spammer. Le problème du spam, c’est qu’il reste toujours 0,01% des personnes qui iront cliquer puis passer commander chez un spammeur. Il restera toujours, même après mise en place de cet attribut des gens pour cliquer sur des liens spammesques. Le retour est peu important par rapport au bruit que fait un spammeur, mais vu que la pollution de sites webs ou de boites mails ne lui a presque rien coûté, il continuera... Cela n'arrêtera pas le spam.

Si vraiment le problème était dans le fait que le lien augmente le pagerank, il suffisait d’utiliser un script-wrapper qui fera une redirection, afin que la page ne soit pas visible directement dans google. Ou de détecter le googlebot et de ne pas lui présenter les liens, voire les commentaires.

Au contraire, ces balises sont anti-productives. Combien de fois ai-je cité une page web en réponse à un problème dans un commentaire sur linuxfr ? De la sorte, les blogs et les liens intéressant finissent fort bien référencés. En rajoutant ce tag aux liens mis dans les commentaires, on casse une bonne partie du mécanisme permettant aux blogs d’être bien référencés.

Alors, pourquoi une adoption massive dès l’annonce ? Pour tous, c’est une géniale opération marketing laissant penser que ces sociétés s’occupent du bien des bloggers, alors qu’au mieux ça ne change rien, qu’au pire cela sera contre-productif. Et quel intérêt y trouve google finalement ? Tout le monde sait bien que sur google les blogs sont fort bien référencés. En créant cette balise, ils vont pouvoir rééquilibrer la part des blogs dans leur moteur de recherches.

Mais non, je dois être paranoïaque, je vois pas pourquoi je suis le seul à trouver là une régression. Et pourquoi des hebergeurs de blogs seraient en train de se tirer une balle dans le pied ? Les gens qui ont adopté ce tag savent-ils vraiment comment marchent les spammeurs ?

C’était pas la peine d’attendre que Google se bouge quoi. Surtout si c’est un pis-aller qui sert également de solution à ce que certains voient comme un problème chez eux : le poids important que prennent certains weblogs dans les recherches. Il est si commun de voir des moteurs de recherches se faire payer pour bien placer certains sites, qui nous dit que google n’a pas d’intérêt à remiser derrière dans les recherches les sites non-commerciaux ? Cf GoogleWatch : http://www.google-watch.org/(...)

Par contre, je ne nie que la balise peut servir, offrant un petit plus par rapport au fichier robots.txt. Mais ce n’est pas un anti-spam. Et à ne pas appliquer systématiquement.

(oui, c'est une ressucé de là : http://maxime.ritter.eu.org/une-solution-anti-spam-a-la-con-de-plus(...) , mais j'ai le droit, c'est ma prose).

et le googlewash ?

Posté par Étienne Bersac (Jabber id, page perso, ) le 20/01/2005 à 14:06. (lien). Évalué à 0.

On ne pourrat donc plus faire de googlewash en étant utilisateur d'un site ? ­- zut.

--
E Ultreïa !

Ce n'est pas une protection contre les spameur et les pollueurs de site.

Posté par Calim' Héros (Jabber id, page perso, ) le 20/01/2005 à 14:46. (lien). Évalué à 3.

C'est une protection contre le "google bombing".
Le but et uniquement que les moteur n'accreditent pas ces liens à la popularité des sites sur lesquels ils pointes

--
Un petit coup de main, votez pour moi

Google suit-il sa propre politique ?

Posté par R4f (page perso, ) le 20/01/2005 à 22:24. (lien). Évalué à 1.

Pour ma part, je suis étonné de ne lire null part la question (pourant légitime, AMHA) : Google va-t-il appliquer sa propre politique à lui-même ?

En effet, Google a une campagne de spam^H publicité : AdWords - https://adwords.google.com/select/(...) (comment on fait déjà dans LinuxFr pour qu'il ne suive pas les liens ? ;-) qui pullulent sur plein de pages où les auteurs croient sans doute qu'ils vont toucher le jackpot car leurs nombreux(?) visiteurs vont cliquer cliquer cliquer sur les liens de Google AdWords et que ça va leur rapporter plein de brouzouf.

Je viens de regarder le code HTML d'un tel site AdWord'isé et je n'ai pas vu qu'ils avaient aussi cette politique... dommage !

Enfin, les cordonniers et tout ça...

Titre racoleur

Posté par R4f (page perso, ) le 20/01/2005 à 22:28. (lien). Évalué à 1.

"Google contre la pollution des sites web", c'est un titre un peu gonflé, non ?

En fait, c'est pour pallier les déficiences de leur propre algorithme, oui ! C'est un peu comme quand Microsoft s'allie avec tant d'autres pour faire une plate-forme soi-disant sécurisée et qu'ils font en sorte qu'on ne puisse plus mettre que des logiciels d'éditeurs assez friqués pour payer les certificats de leurs logiciels...

Dommage, car j'aimais bien le PageRank...

De l'utilité des referers d'un wiki

Posté par dawar (page perso, ) le 21/01/2005 à 11:30. (lien). Évalué à 5.

Bon, je m'occupe du wiki d'erreur404, et nous avons subit des spameur pour des sites de viagra et des sites porno. Un petit .htaccess a réglé le problème en refusant la connexion pour les sites attaquant, qui ne sont pas si nombreux que ça, il suffit de choisir les bons mots clés.

Car il y'a un revers a la médaille : Wikini par exemple propose d'avoir les références d'une page (referer), ce qui est un échange de bon procédés avec le site qui fait un lien vers le mien. En plus, pour google c'est tout benef : la page mp3legal par exemple de mon wiki, aura des referer vers des sites parlant aussi de cela.

Bref, a mon gout si ça se généralise, google va perdre beaucoup de son interet, et comme dit plus haut cela va favoriser les sites commerciaux au détriment des blogs, wikis et autres sources d'informations généraliste.

Je ne l'utiliserais pas, je préfère bricoler mes .htaccess et faire du ménage dans la base SQL de temps en temps, voir trouver une parade en php pour avoir une blacklist.

Voir http://www.wikini.net/wakka.php?wiki=RechercheTexte&phrase=refe(...) pour les solutions envisagées par wikini.

Désespérant ...

Posté par ptitatou () le 21/01/2005 à 12:37. (lien). Évalué à 7.

Désespérant, c'est le mot qui me vient à l'esprit quand je lis tous ces commentaires (ici et ailleurs) sur ce sujet.

Je suis d'accord avec les gents qui nous disent que Google par sa position monopolistique peut etre un problème à l'avenir. Mais ce que certaines personnes, dont je ne sais si c'est par parano ou par incompétence, nous raccontent je trouve ca grave.

1) "Mais regardez sur le mail ..." : Ce n'est pas du tout le même sujet, les mêmes méthodes et les mêmes buts !Quand en plus on nous dit "SPF, ca n'a pas marché" oui bah regardons de plus près, pour que SPF marche, il faut que tout les acteurs du secteur soit d'accords (et la ce n'est pas le cas cf Sender-ID), de plus tout le monde ne reconfigure pas son sendmail|exim|postfix tout les jours. Pour que ca soit efficace, il faut :
a) Que ca soit adopté par tout le monde (et, meme si j'aurais préféré que ca vienne du W3C, quand 3 acteurs majeurs essayent de proposer une solution commune c'est bien !)
b) Que les solutions techniques suivent et surtout soit simple à mettre en oeuvre (d'ou l'accord avec les principaux moteurs de blog)

2) "Mes liens ... ca va baisser le classement du blog ... gnagnagna" : Franchement, ca vous est déja arivé de programmer des moteurs de blog (ou autre plateforme à la LinuxFR). Cette technique est, d'un point de vue programmeur, extrèmement simple à mettre en oeuvre, et surtout, elle répond exactement au problème.

3) "C'est du a la facon dont google fonctionne" : Bah oui, on est d'accord mais :
a) Revenir à l'ancien modèle des robots : sans moi, j'aime bien trouver des résultats pertinants mais vous etes libre de le faire
b) Inventer un nouvel algo : bah si google trouve un algo révolutionnaire, je fonce acheter des actions tout de suite, celui qui trouvera l'algo parfait pour le moteur parfait des 5 prochaine années s'assurera le quasi-monopole, si vous croyez qu'il ne le cherche pas, chez google, avec tout leurs ingés spécialiste en I.A...

Bref, c'etait un coup de geule, je vous laisse dans le débat, moi je fonce recoder les commentaires de mon blog.

NB: je suis triste, je vais plus pouvoir utiliser le lien "page perso" de LinuxFR pour faire monter des sites dans google, ca marché bien ... justement ...

Bonne réaction aux arguments « anti »

Posté par Boa Treize (page perso, ) le 23/01/2005 à 18:41. (lien). Évalué à 4.

Sur Padawan.info, résumé des arguments de ceux qui se méfient de cette proposition, et excellente contre-argumentation :
http://padawan.info/fr/web/nofollow_suivre_ou_ne_pas_suivre.html(...)

Revenir en haut de page