Google contre la pollution des sites web

Posté par  (site web personnel) . Modéré par Pascal Terjan.
Étiquettes : aucune
0
20
jan.
2005
Internet
La pollution des espaces publics des sites web, notamment les commentaires des blogs et les pages des wikis, s'est fortement accrue en 2004. Le but des pollueurs est d'améliorer le classement de leurs sites douteux en créant des liens vers ceux-ci, et en profitant ainsi de la popularité du site qu'ils polluent.

Des méthodes ont été mises au point par les communautés concernées, allant du fastidieux nettoyage des commentaires et pages concernés à des listes noires partagées, afin de bloquer le phénomène à sa source. Un combat sans fin toutefois, tant que les pollueurs ont suffisamment à y gagner, c'est à dire un bon classement dans les moteurs de recherche.

L'annonce de Google, mardi dernier, va peut-être mettre fin à ce problème. En effet, Google permet maintenant aux gestionnaires de sites web d'indiquer que certains liens doivent être ignorés dans le calcul du PageRank, qui est à l'origine de toute cette pollution. MSN Search et Yahoo! Search ainsi qu'une dizaine d'auteurs de moteurs de blog ont annoncé soutenir et participer à cette initiative. Un peu de perspective

La manipulation des résultats donnés par les moteurs de recherche n'a rien de nouveau, et vu les enjeux, n'est pas près de disparaître. Qu'il s'agisse d'une compagnie qui souhaite se placer devant ses concurrents ou d'un groupe de gens qui souhaite faire « disparaître » ses opposants, pour de mauvaises ou de bonnes raisons, les méthodes de classement des principaux moteurs de recherche seront toujours analysées et cette connaissance utilisée afin « d'optimiser » le classement des sites.

Avant l'arrivée de Google, les moteurs de recherche utilisaient essentiellement le contenu des pages et en particulier les mots-clés listés dans les balises meta de celles-ci. Le mécanisme était trivial, et les auteurs de site ne se privaient pas d'associer à leur page toutes sortes de mots-clés populaires et sans aucun rapport avec celle-ci, voire de remplir les pages de textes blancs sur fond blanc afin que leur site apparaisse bien classé en réponse à toutes sortes de requêtes.

Google et son algorithme PageRank ont mis fin pour l'essentiel à ces méthodes. En mettant l'accent sur les liens entre sites plus que sur le contenu de ceux-ci, Google a pu déterminer le degré de popularité des pages, indépendamment de la volonté des propriétaires des sites. Ceux-ci ont toutefois fini par s'adapter à la nouvelle donne, en créant des réseaux de sites pointant les uns vers les autres, ou en remplissant des sites populaires avec des liens vers leurs sites. C'est cette dernière pratique que Google entend contrer.

La proposition de Google

Un site contient, en gros, deux types de liens : ceux crées par le gestionnaire du site, et ceux crées par ses visiteurs dans les divers endroits où ils peuvent s'exprimer (livre d'or, forums, commentaires, pages de wiki, etc.). Ce sont ces derniers qui sont frappés par la pollution, et Google propose aux gestionnaires de sites, s'ils le souhaitent, que tout ou partie des liens de ces zones soient ignorés lors du calcul du PageRank. Ainsi, les pollueurs perdent leur motivation essentielle -- accroître leur classement -- et devraient cesser d'utiliser de telles méthodes.

Comment ça marche ?

Quand Google voit un lien hypertexte contenant l'attribut rel="nofollow", il ne le prend pas en compte pour le calcul du PageRank. C'est au gestionnaire du site de s'assurer, au moyen de son langage de programmation favori, que tous les liens saisis par les utilisateurs contiennent cet attribut.

Google suggère de traiter de la sorte tous les endroits où des liens peuvent être créés, directement ou non, par des utilisateurs. On pense notamment, outre les commentaires et autres éditions de pages, aux listes de referrer que certains outils de statistiques rendent disponibles.

MSN Search et Yahoo! Search ont annoncé soutenir cette initiative en modifiant leurs propres moteurs de recherche pour qu'ils interprètent cet attribut de la même manière. Une dizaine d'auteurs de moteurs de blog participent à cette initiative, et devraient présenter prochainement des versions de leurs programmes qui incluent automatiquement cet attribut aux endroits appropriés.

Et à l'avenir ?

Le succès de cette initiative dépend bien sûr de son degré d'adoption. Il va probablement falloir quelques mois avant que les pollueurs ne comprennent l'inutilité de leurs actions, et on peut s'attendre ensuite à les voir se concentrer sur les sites qui n'ont pas encore intégré cette protection.

Aller plus loin

  • # Très bonne initiative

    Posté par  . Évalué à 10.

    C'est là une très bonne solution, et les moteurs de blogs francophones, tels DotClear, proposent déjà un patch.

    Tremblez, spammeurs...
    • [^] # Re: Très bonne initiative

      Posté par  . Évalué à 10.

      La pollution des referrers de certains Wiki est très problématique par exemple le site qui heberge Wikini a dut changé qu'hébergeur suite a une pollution automatisé et systématique de ses pages referrers.

      Donc je pense que l'adoption ne devrait pas pauser problème est être assez rapide de la part des principaux moteurs de wiki et de blog qui sont les principales victime de ces pollutions automatisées. Tous le monde a intérêt a supporter cette extension que ce soit les développeur de site ou les moteurs de recherche.

      La question est quel sera la durée de la période de flottement entre la mise en place de cette mesure et la diminution de la pollution, les spammeurs non pas grand chose a perdre a continuer a spammer a tous vas en esperant tomber sur des sites non patchés.
      • [^] # Re: Très bonne initiative

        Posté par  (site web personnel) . Évalué à 9.

        Je suis tout a fait d'accord avec ta remarque finale. Combien de temps avant que les spammeurs ne decident d'arreter cette methode ? Arreteront-ils vraiment ? Quand on est suffisamment con pour etre spmmeur, on peut continuer a utiliser la meme technique chez tout le monde, en se disant que dans le tas, il y en a quelques uns qui n'auront pas encore mis a jour leur logiciel de blog/wiki
        • [^] # Re: Très bonne initiative

          Posté par  . Évalué à 4.

          Si tu indiques clairement en haut de ta page que tu utilises le système avec un lien vers la page de google qui en parle, ça sera peut-être suffisant.

          Je pense que le mec comprendra et arrêtera... à moins qu'il n'en rajoute pour se venger...
          • [^] # Re: Très bonne initiative

            Posté par  (site web personnel) . Évalué à 2.

            Les sites sont reperes par des robots, pas par des mecs. Il est peu sur que les spammeurs prennent la peine de modifier son robot pour que celui-ci detecte les sites qui seront utils et ceux qui ne le seront pas.

            Finalement, comme le disait qq'un plus bas, cette solution ne beneficie vraiment qu'a google et a ses utilisateurs. Les bloggers et wiki seront a mon avis pollues de la meme facon.
            • [^] # Re: Très bonne initiative

              Posté par  . Évalué à 1.

              Je crois que pour bloquer les robots il n'y a que le système d'images dans lesquelles tu caches un texte à recopier qui soit efficace...

              Faut mettre en place ce genre de système...
              • [^] # Re: Très bonne initiative

                Posté par  . Évalué à 6.

                oui, mais ca ne bloque pas seulement les robots. Les malvoyants aussi ont le droit de poster des commenctaires (et autres) sur un blog (wiki, linuxfr, ... par exemple)

                Donc la solution des images n'est pas une bonne solution (c'est une solution qui amène d'autres problemes)
                • [^] # Re: Très bonne initiative

                  Posté par  . Évalué à -10.

                  Donc la solution des images n'est pas une bonne solution

                  Cette solution est très bonne car assez facile à mettre en oeuvre et très dure à casser.

                  On vit dans un monde où les gens sont pour la plupart "voyants". On ne peut pas l'oublier.

                  C'est bien de faire attention à l'accessibilité des sites pour les malvoyants mais il ne faut pas que ce soit au détriment des autres.
                  • [^] # Re: Très bonne initiative

                    Posté par  . Évalué à 3.

                    Cette solution est très bonne car assez facile à mettre en oeuvre et très dure à casser.

                    c'est à la portée d'un centralien avec du temps à perdre, hein. (private joke inside)
                    • [^] # Re: Très bonne initiative

                      Posté par  . Évalué à 1.

                      Avec PHP et un peu d'imagination tu peux le faire.

                      Tu génères un mot de quelques lettres au hazard.
                      Tu créés une image avec PHP.
                      Tu colles les caractères un à un avec un choix aléatoire de la police, une petite rotation et une petite translation.
                      Tu utilises les sessions pour contrôler ce que le mec te renvoie... et basta...

                      Je vais le faire rapidement pour tester...
                      • [^] # Re: Très bonne initiative

                        Posté par  (site web personnel) . Évalué à 3.

                        Je vais le faire rapidement pour tester...

                        Pourras-tu nous donner l’adresse de la page lorsque ce sera fait ? Merci.
                        • [^] # Re: Très bonne initiative

                          Posté par  (site web personnel) . Évalué à 3. Dernière modification le 04 décembre 2021 à 20:26.

                          y'a un module templeet pour ca :

                          http://templeet.org/doc/cryptedimage.fr.html (NdM: remplacé en 2021 par un lien archive.org)

                          (bon, y'a pas la doc, mais y'a le code ;-)

                        • [^] # Re: Très bonne initiative

                          Posté par  . Évalué à 1.

                          http://sanchezn.free.fr/image.php(...)

                          reload pour voir que ça change...

                          Y'a pas de rotation sur les lettres parce que free ne l'autorise pas...
                          après tu peux aussi rajouter des traits sur le texte pour le rendre moins lisible...
                          • [^] # Re: Très bonne initiative

                            Posté par  . Évalué à 1.

                            le code c'est :

                            <?php
                            header("Content-type: image/png");

                            function createLettre($lettre)
                            {
                            $image = imagecreatetruecolor(20, 20);
                            $bgcolor = imagecolorallocate($image, 200, 200, 255);
                            $color = imagecolorallocate($image, rand(0, 200), rand(0, 200), rand(0, 200));
                            imagefill($image, 0, 0, $bgcolor);
                            $font = rand(1, 5);
                            imagestring($image, $font, rand(0, 20 - imagefontwidth($font)), rand(0, 20 - imagefontheight($font)), $lettre, $color);
                            //imagerotate($image, rand(-10, 10), $bgcolor); //à décommenter si t'as imagerotate...
                            return $image;
                            }

                            $texte = "jDh6E4mP"; // à générer aléatoirement...
                            $image = imagecreatetruecolor(160, 20);
                            $black = imagecolorallocate($image, 0, 0, 0);
                            for ($i=0; $i<8; $i++)
                            {
                            $lettre = createLettre($texte[$i]);
                            imagecopy($image, $lettre, $i*20, 0, 0, 0, 20, 20);
                            imagedestroy($lettre);
                            }
                            imagepng($image);
                            imagedestroy($image);
                            ?>
                          • [^] # Re: Très bonne initiative

                            Posté par  (site web personnel) . Évalué à 9.

                            Ça se cracke malheureusement en un centième de seconde. Le but de ce genre d’images est d’être difficile à décoder pour un ordinateur, pas pour un humain (l’exemple le plus typique de captcha mal foutu est celui de linuxfr.org qu’un ordinateur peut décoder dans plus de cas qu’un humain).
                  • [^] # Re: Très bonne initiative

                    Posté par  . Évalué à 7.

                    > On vit dans un monde où les gens sont pour la plupart "voyants".
                    > On ne peut pas l'oublier.
                    >
                    > C'est bien de faire attention à l'accessibilité des sites pour les
                    > malvoyants mais il ne faut pas que ce soit au détriment des autres.

                    Réaction de marketeux.

                    Si le net n'est pas un outil qui permet en particulier à ceux qui ont des capacités différentes d'acquérir une plus grande autonomie, alors il aura à mon avis raté son rôle d'ouverture et de partage.

                    En celà, ton argument est un argument de marketeux, celui qu'adoptent les vendeurs de soupe pour propager leur bonne parole au plus grand nombre quitte à ce que ça emmerde une marge de gens, et pas seulement concernant le spam largement répandu. En l'occurence, les malvoyants et autres handicapés ont plus besoin que ceux qu'ont tous leurs moyens dans la vie de ces outils, pour ne pas dire que ça peut aider a les sortir littéralement de la marge.

                    Ce qui est accessible aux plus faibles le sera a ceux qui sont les mieux armés dans la société.
                  • [^] # Re: Très bonne initiative

                    Posté par  (site web personnel) . Évalué à 6.

                    Et si on tournait ta phrase ainsi :

                    On vit dans un monde où les gens sont pour la plupart "windowsiens". On ne peut pas l'oublier.

                    C'est bien de faire attention à l'accessibilité des sites pour les linuxiens mais il ne faut pas que ce soit au détriment des autres.

                    L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

                    • [^] # Re: Très bonne initiative

                      Posté par  . Évalué à 5.

                      ça s'appelle faire des pages qui passent encore assez bien dans IE malgré ses limitations et c'est souvent discuté ici.
            • [^] # Re: Très bonne initiative

              Posté par  (site web personnel) . Évalué à 5.

              Pas seulement Google, tous les moteurs de recherches peuvent prendre en compte cette information : ce lien que j'ai marqué "nofollow" sur ma page n'est pas forcément un « bon lien » (ie: pas forcément pertinent, vu que ce n'est pas moi qui l'ai mis mais quelqu'un qui n'a pas forcément autorité sur mon site).

              Donc ça va permettre si les webmasters l'utilisent (bloggers, etc...) d'améliorer la pertinence des réponses trouvées par les moteurs de recherche. Pas seulement google, yahoo annonce qu'il va en tenir compte, msn aussi, et il y a fort à parier que d'autre moteur de recherche utilisant un système équivalent au pagerank le feront aussi.

              Par contre, on peut effectivement ce poser la question de savoir si ça réduira ou pas les spams de blogs et autres forums. Vu que ça ne coûte pas cher (ni en temps ni en développement) à implémenter dans un blog ou un forum (ça m'a pris 1 min de patcher phorum pour qu'il fasse), je ne vois pas pourquoi ne pas aider l'indexation et la pertinence des « trouveurs de réponses ».
  • # DotClear

    Posté par  (site web personnel) . Évalué à 10.

    A noter que le patch pour dotclear est déjà disponible ici : http://www.neokraft.net/blog/2005/01/19/569-dotclear-et-le-nofollow(...)

    L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

  • # Validité XHTML

    Posté par  (site web personnel) . Évalué à 10.

    En ajoutant l'attribut rel="nofollow", est-ce que nos pages vont rester valides vis à vis des standards du W3C?
  • # oui mais

    Posté par  (site web personnel) . Évalué à 6.

    je suis perplexe...

    je ne lis aucun des 100 ou 200 spams que je recois chaque jour (oui je sais je suis gâté) mais j'en recois toujours...

    ignorer les cons, les rend pas moins cons
    • [^] # Re: oui mais

      Posté par  (site web personnel) . Évalué à 8.

      Oui, mais des gens les lisent.
      Là pour que le spam automatique marche il faut que la cible utilise une application connue (sinon le robot ne saura pas quoi faire). Si on met à jour les 10 ou 15 applications les plus connues/utilisées, les spammeurs n'auront plus aucun intérêt à les cibler. Ils vont tout simplement devoir chercher une nouvelle cible.

      Il suffirait que dans 6 mois les outils de blog/wiki/forum/livre d'or majeurs implémentent ce système pour que les spammeurs arrêtent d'agir sur ces média.

      De toutes façons ça ne peut pas faire de mal
      • [^] # Re: oui mais

        Posté par  . Évalué à 1.

        J'ai déjà implémenté ça sur nos forums (forum.europeanservers.net)

        En fait le lien est normal lorsqu'il est posté par un membre, mais il porte l'attribut nofollow s'il est posté par un non-membre. J'ai du mal à imaginer qu'ils se fassent chier à ouvrir un compte pour chaque lien posté...
    • [^] # Re: oui mais

      Posté par  (site web personnel) . Évalué à 6.

      D'ou la mention :

      Et à l'avenir ?
      Le succès de cette initiative dépend bien sûr de son degré d'adoption.

      Si tout le monde utilisait un antispam efficace, il n'y aurait plus de spam au bout d'un certain temps. Le spam est motivé par le profit, qui dépend de son efficacité.
      Malheureusement les methodes antispam pour le mail restent faiblement utilisées par le grand public. Mais si les methodes antispam se généralisent, les techniques de spam employées deviendront inefficaces. Les spammeurs arreteront donc de les utiliser (et en trouveront surement d'autres, certes, mais en attendant on sera tranquille).
      L'apparent soutien général a cette annonce de google laisse présager du succès de l'initiative. Tant mieux.
    • [^] # Re: oui mais

      Posté par  (site web personnel) . Évalué à 5.

      Sauf qu'un spam e-mail c'est fait pour que tu le lises et que tu cliques sur les liens.
      Un spam dans un blog / wiki / site à la linuxfr c'est principalement fait pour augmenter le rank-page des sites en lien pour les moteurs de recherche ce qui fait qu'ils apparaitront en premier dans les résultats.

      C'est la "faille" utilisée dans Google pour que le site de Bush apparaisse en premier quand on cherchait "stupid monkey" (ou un truc du genre).

      L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

      • [^] # Re: oui mais

        Posté par  (site web personnel) . Évalué à 6.

        oui, c'est pas la meme chose que le spam email, mais m'est avis que c'est pas parce que ca servira a rien que les spameurs le feront plus

        et le proprio de blog, son probleme c'est le spam dans ses commentaires pas les problemes de marketing de google

        parce que adpter ce systeme ca rend surtout service a google a court terme, alors que le benefice pour les blogueurs est hypothetique

        ma pensée est plus clair comme ca ?
        • [^] # Re: oui mais

          Posté par  (Mastodon) . Évalué à 3.

          Ouaip, mais il s'agit quand même d'attaquer le problème à la racine.
          Les spammeurs spamment ton blog, forum, je-ne-sais-quoi, parce que ça leur permet de mieux classer certaines pages, si ça ne le fait plus, ils ne le feront plus, ils trouveront autre chose.
          Donc ça peut résoudre à terme le problème du spam sur ton site.
          Donc ça vaut le coup pour toi sur ton site...
          Même si tu peux mettre en place d'autres mesures en parallèle pour empécher ça :)

          Yth.
  • # et linuxfr?

    Posté par  (site web personnel) . Évalué à 6.

    Est-ce que les commentaires de linuxfr vont subir le nofollow?
    • [^] # Re: et linuxfr?

      Posté par  (site web personnel) . Évalué à 10.

      Ils pourraient avoir cet attribut par défaut, et le perdre après avoir été suffisament bien notés. Ainsi les URLs jugées intéressantes par les linuxfr-iens seraient prises en compte par les moteurs...
      (juste une idée bien sûr).
      • [^] # Re: et linuxfr?

        Posté par  (site web personnel) . Évalué à -2.

        Et si le robot Google passe au moment où la news viens d'être postée ? Celle ci n'a pas encore eu le temps d'être moinsée, et Google suit le lien.

        C'est un cas parmis 100 mais, il faudrait donc trouver une solution un peu plus complexe à mon avis.
        • [^] # Re: et linuxfr?

          Posté par  . Évalué à 5.

          gni ? (il me semble que c'est le contraire qui est proposé... il faut plusser pour que Google suive le lien...)
    • [^] # Re: et linuxfr?

      Posté par  (site web personnel) . Évalué à 8.

      très bonne question.
      car si on généralise trop cette pratique, il arrivera que même les gens honnêtes qui places des liens de manière correctes seront "bloqués".

      Je ne sais pas du tout comment ce sera sur linuxfr.org mais si cela devait arriver, il pourrait être intéressant de ne placer le nofollow que pour le lien se trouvant dans un commentaire insuffisamment pertinent, par exemple, ceux qui ont une note inférieur ou égale à 0.

      mais bon, ce n'est qu'une idée parmis tant d'autres.
      • [^] # Re: et linuxfr?

        Posté par  (site web personnel) . Évalué à 7.

        Oui j'y pensais pour les comentaires négatifs.
        J'hésite aussi poue les liens "page perso" mais ca m'embéterait de plus pouvoir faire monter une URL dans google :-)
        • [^] # Re: et linuxfr?

          Posté par  . Évalué à 4.

          Mais linuxfr est-il réellement touché par ce pb ? Avez-vous déjà vu des journaux pollués par des liens vers des trucs qui n'ont rien à voir et qui sont là uniquement pour des questions de pagerank ?
          • [^] # Re: et linuxfr?

            Posté par  (site web personnel) . Évalué à 6.

            Oui mais faits à la main par des comptes créés pour et très rarement :-)
            L'avantage de l'utiliser pour les commentaires négatifs, c'est d'éviter d'augmenter le page rank de sites très moyens qui valent la purge du compte, lorsque google passe entre temps.
            • [^] # Re: et linuxfr?

              Posté par  . Évalué à 2.

              Vu le faible nombre de liens donnés par commentaire je doute que ça puisse qvoir une quelconque influence sur le pageRank final. Le jeux en vaut-il vraiment la chandelle pour LinuxFR (je comprend tout à fait le problème et la solution pour les BBB :-) )

              BBB : Blogs Buggés par des Bots
      • [^] # Re: et linuxfr?

        Posté par  (site web personnel) . Évalué à 4.

        > il arrivera que même les gens honnêtes qui places des liens de
        > manière correctes seront "bloqués".

        Bloqués ? le lien marchera non ? les gens le verront, pourront cliquer dessus ? tout au plus ça n'agira pas en positif sur le moteur de recherche, mais ça n'agira nullement en négatif, donc ne bloquera rien du tout.
      • [^] # Re: et linuxfr?

        Posté par  . Évalué à 3.

        Il ne faut pas oublier l'objectif de google qui est de mesurer la popularité d'un site.

        Si quelqu'un rajoute sur son site un lien vers mon site, alors mon site a été apprécié par une personne...

        Par contre, on ne peut pas donner de valeur à un lien ajouté par une tierce personne, ne sachant pas si il s'agit d'auto-promotion...

        Sinon, par rapport au retrait d'un nofollow si le commentaire atteint un certain niveau, je ne suis pas trop d'accord. Quand on note un commentaire, on ne note pas un lien. Il y a des commentaires très pertinents avec des liens sans intérêt.

        Si on veut bien faire les choses, il faut que le modérateur visite les liens et les mette nofollow ou pas, ou rajouter un système de notation des liens... (je sais ça bouffe du temps ou c'est trop lourd)...
    • [^] # Re: et linuxfr?

      Posté par  (site web personnel) . Évalué à 9.

      Les spammeurs ont-ils déjà fait un bot pour poster de manière automatique sur linuxfr ?

      Non, il me semble pas. Donc il n'y a pas urgence. Cette balise, c'est surtout pour les blogs qui utilisent à 80% une douzaine de CMS, pour lesquels les spammeurs existent. Ainsi que les Wiki, et là encore ce sont les wikis les plus usités qui sont vraiment touchés.

      Ensuite, si cela devait se faire, étant donné que cela pourrait déréférencer pas mal de liens intéressants, il faudrait n'agir que sur les posts scorés dans le négatifs, si tant est que l'on considère que l'on puisse faire confiance à la modération par les utilisateurs.

      Oups, je vais lancer un enième troll sur les XP ? Désolé, ce n'est pas mon but.
      • [^] # Re: et linuxfr?

        Posté par  . Évalué à 1.

        Les spammeurs ont-ils déjà fait un bot pour poster de manière automatique sur linuxfr ?

        linuxfr est modéré... les spams ne tiendraient pas longtemps...
        • [^] # Re: et linuxfr?

          Posté par  (site web personnel) . Évalué à 3.

          Les wikis aussi sont "modérés" (par les utilisateurs), et le spam n'y reste en général pas plus de quelques heures, pourtant ...

          Par ailleurs, un duel robot qui poste 10 commentaires / secondes Vs modérateur humain est perdu d'avances. Dans ce cas la, c'est plus la qualité du webmaster et ses systèmes anti-bots (genre blacklister les mecs qui postent 10 commentaires par secondes ...) qui compte que les modérateurs.
          • [^] # Re: et linuxfr?

            Posté par  (site web personnel) . Évalué à 3.

            Pas plus de quelques heures ? sur wikipedia peut être, sur des wiki plus modestes ça reste souvent quelques jours.
            Puis bon, peut être que les modéros ils aimeraient bien ne pas avoir à passer toutes les 2h vérifier le spam justement ;)
  • # Bonne méthode?

    Posté par  . Évalué à 10.

    Je ne sais pas, je ne suis pas persuadé que Google ait choisi la bonne méthode...

    1) la fiabilité du moteur de recherche repose désormais sur le respect d'une norme par les sites eux-mêmes. Je trouve ça très dangereux, puisque du coup, ne pas ajouter la balise va proportionnellement augmenter le poids des sites "douteux".

    2) même si la "faille de sécurité" est bouchée, ça se fait au détriment de la qualité des recherches, puisque de nombreux liens pertinents (peut être plus que les liens non pertinents d'ailleurs) vont être ignorés ; or, les blogs et les wiki sont les sites les plus rapides à réagir à l'actualité. Ca ne va pas améliorer la nervosité de google, déja pas formidable...

    3) il existe maintenant des très bon filtres bayesiens pour filtrer les spams, j'imagine que le même système pourrait être utilisé à plus grande échelle pour filtrer les liens. C'est évolutif, et ça permet d'anticiper les autres astuces dont feront à coup sûr preuve les petits malins dans les années qui viennent.

    Bref, à mes yeux, la solution proposée est "petit bras", pas très glorieuse, et très facilement contournable. Si la concurrence propose mieux, google va vite être redépassé...
    • [^] # Re: Bonne méthode?

      Posté par  (site web personnel) . Évalué à 4.

      1) la fiabilite du moteur n'est pas affectee.

      2) c'est vrai. T'as de meilleurs propositions. Cette proposition a le merite d'etre facile et rapide a mettre en place. C'est malheureusement un cout a payer a cause des spammeurs.

      3) le spam si filtre sur le contenu. Un lien lui-meme ne contient pas de contenu donc il va etre difficile de l'analyser sans envoyer une requete.

      La solution est loin d'etre parfaite mais elle a le merite d'etre globale, rapide a mettre en place et publique (pour que les spammeurs savent). C'est l'oppose de la solution des filtres du mail, qui sont privees, sous la responsabilite individuelle des utilisateurs et qui sont parfois difficile a mettre en place.

      Une meilleure solution a moyen terme a mon avis est d'utiliser une image de nombre deformee pour tout post qui peut etre soumis par un utilisateur. Pour l'instant, ce n'est utilise que pour de la creation de compte mais je pense qu'il est necessaire de passer a l'etape suivante.

      En plus, c'est pas dur a faire, en quelques jours, on peut faire une lib windows/macos/linux sous licence BSD qui donnerait de bon resultats.
      • [^] # Re: Bonne méthode?

        Posté par  (site web personnel) . Évalué à 10.

        > Une meilleure solution a moyen terme a mon avis est d'utiliser une image de nombre deformee pour tout post qui peut etre soumis par un utilisateur.

        Ah oui mais NON !

        Si mes souvenirs sont exacts, il y a quelques temps pour apprécier un commentaire sur DLFP, il fallait passer par ce genre d'étape. À savoir, retaper le contenu déformé d'une image pour s'assurer de ne pas avoir un bot à l'autre bout.

        Aujourd'hui, cette fonctionnalité a disparu. Mais pourquoi ?

        Je ne suis pas sûr à 100%, mais j'ai le souvenir d'avoir vu dans les forums de DLFP un utilisateur non/mal voyant se plaindre que, pour lui, s'était totalement inutilisable (tu m'étonnes).

        Dans ce cas là -> Accessibilité = 0.

        Et ça me semble difficilement contournale car, si un non-voyant utilise lynx et qu'on documente correctement l'attribut alt="" et bien alors n'importe quel script sera capable d'aller y extraire cette valeur et d'aller la mettre là ou il faut.

        Pas évident de trouver une solution propre est, surtout, accessible à tous.
      • [^] # Re: Bonne méthode?

        Posté par  . Évalué à 1.

        Une meilleure solution a moyen terme a mon avis est d'utiliser une image de nombre deformee pour tout post qui peut etre soumis par un utilisateur.

        Je n'ai jamais compris l'intérêt de cette mesure de "sécurité". Les ordinateurs sont meilleurs que les humains pour reconnaître des chiffres et des lettres dans des images. Lors de labos de logique flou, je me rappelle que la machine retrouvait correctement des chiffres dans des images de plus en plus pixelisées alors qu'on ne voyait plus que du flou !

        A mon avis, il ne faudra pas longtemps pour que les robots intègrent des algos de ce type. C'est typiquement le genre de mesures qui nuisent à l'utilisation et ne résolvent (à terme) pas grand chose.
    • [^] # Re: Bonne méthode?

      Posté par  (site web personnel) . Évalué à 4.

      > la fiabilité du moteur de recherche repose désormais sur le respect
      > d'une norme par les sites eux-mêmes

      La fiabilité des moteurs a toujours reposé sur le fait que le contenu est sites est pertinent. Si dans ton site qui parle de vélo tu met plein de fois le mot "mp3" le moteur ne sera plus fiable. C'est la même chose si tu intègres (malgré toi) plein de liens de spam qui n'ont rien à voir avec ton contenu.
      Il y a trois solutions :
      - faire en sorte que personne ne mette ces liens (on peut leur demander gentiment mais je doute que ça marche)
      - faire en sorte que le moteur sache quels sont les mauvais liens et les ignore (techniquement c'est dur voire impossible de faire ce tri automatiquement).
      - faire en sorte que ces liens ne comptes pas quand l'auteur les juge non pertinent

      Comme les deux premières solutions ne fonctionnent pas, on a pris la troisième.

      > puisque de nombreux liens pertinents (peut être plus que les liens
      > non pertinents d'ailleurs) vont être ignorés

      On ne fait que diminuer la quantité globale des liens pris en compte. Rien ne dit que la répartition des liens (hors spam) ne sera pas la même, donc que ça posera réellement problème dans les moteurs.

      > or, les blogs et les wiki sont les sites les plus rapides à réagir à l'actualité

      On ne désindexe pas les blogs (on savait déjà le faire), pas même les commentaires (on savait le faire aussi), mais seulement les liens des commentaires (ça on ne savait pas le faire).
      Le contenu des billets, le contenu des commentaires, les liens des billets .. tout ça ça marche encore.
      Puis ... si tu veux tout indexer rien ne t'empeche de ne pas utiliser la technique.

      > il existe maintenant des très bon filtres bayesiens pour filtrer les spams

      Ils se reposent sur le contenu. Un mail a un objectif différent d'un spam de page rank. Le premier cherche à te faire cliquer ou te convaincre, donc il lui faut du texte, souvent le même. On arrive à filtrer sur les mots qui reviennent souvent (tu vas gagner de l'argent, on va te l'agrandir, "ce n'est pas du spam", etc). Le spam par page rank, à part le lien lui même n'a besoin de rien. Difficile de faire un algo baeysien qui après avoir été entrainé sur le lien "golf" et "viagra" filtre le lien "PHP".

      Ceci dit l'idée n'est pas mauvaise, si je n'avais pas peur de faire écrouler mon serveur en implémentant ça dans les scripts PHP ça vaudrait le coup de tester.

      > et très facilement contournable

      comment ?

      > Si la concurrence propose mieux, google va vite être redépassé...

      C'est un accord fait *avec* la concurrence. MSN et Yahoo proposent la même chose (sinon ça aurait perdu tout intérêt).
      • [^] # Re: Bonne méthode?

        Posté par  . Évalué à 6.

        La fiabilité des moteurs a toujours reposé sur le fait que le contenu est sites est pertinent.

        Pas seulement, justement. Si dans mon site, je met "vélo vélo vélo" et qu'on y voit des photos de Pamela Anderson, personne ne va faire de liens dessus. C'est pour ça que l'analyse du contenu n'était pas fiable, alors que l'analyse des liens vers le site l'était plus. Le principe, c'est que l'ensemble du web est pertinent, et que cette pertinence permet de trier les sites qui ne le sont pas.

        On ne fait que diminuer la quantité globale des liens pris en compte.
        Soit 1000 sites de blogs, qui contiennent chacun 1000 liens, dont 10% de non pertinents. 999 sites jouent le jeu, un seul ne le fait pas. Il va attirer tous les "grugeurs de liens", et va vite contenir 50% de liens non pertinents. Résultat : google s'est privé d'une source potientielle de liens pertinents, et a focalisé l'activité des tricheurs sur les quelques sites qui n'ont pas mis ce système en place.

        Difficile de faire un algo baeysien qui après avoir été entrainé sur le lien "golf" et "viagra" filtre le lien "PHP".

        Je pense qu'il serait très facile de classer les sites par la pertinence potentielle des liens qu'il contient. Une page qui contient 3 liens a
        plus de chances qu'ils soient pertinents qu'une page qui contient 1000 liens. Une page dont le contenu change en moyenne toutes les 10 minutes est un blog ou un wiki, la proba de liens non pertinents augmente, etc. Il suffit de dissocier "pertinence de la page" et "pertinence des liens de la page" (même si les deux peuvent être corrélés).
        De plus, Google peut très bien trier les liens par le succès relatif qu'ils ont après une recherche. Une IP qui clique sur 3 liens en 30s après une recherche, ça veut certainement dire que les 2 premiers ne lui ont pas plu.
        Enfin, l'approche bayesienne pourrait servir à analyser le contenu des sites, l'adéquation des termes contenus avec les pages sur lesquelles il est lié, etc. Tous les sites X par exemple doivent avoir des tonnes de caractéristiques communes, et chaque URL pourrait se voir attribuer une probabilité de tomber dans des catégories (site perso, X, arnaque, entreprise, annuaire, pub etc etc), et ainsi permettre d'affiner la recherche.

        Tout ça pour dire que si google est le moteur de recherche n°1, c'est qu'il a su affiner les résultats des requêtes grâce à un algo ingénieux. Apparemment, ils consédèrent qu'ils sont incapables de fonctionner comme ça, et je ne suis pas d'accord. Evidemment, ça demande des moyens en serveur, en développement logiciel, etc. Mais l'innovation est à ce prix là...

        > et très facilement contournable
        comment ?


        Simplement en trouvant des niches qui dédaignent la balise en question. Parmi les millions de forums, wiki, blogs, serveurs ftp publics, pages perso, livres d'or, etc etc etc, imaginons dans un avenir radieux que 99% d'entre eux utilisent le système (à mon avis beaucoup moins, parce qu'ils n'ont aucun intérêt de le faire s'ils ne sont pas énormément pollués). Il restera des milliers de sites potentiels où balancer des robots, avec un poids des liens potentiellement plus fort à cause de la suppression des liens taggués. Et même s'il n'était plus possible de mettre aucun lien nulle part, je fais confiance à l'ingéniosité des gens qui se font payer des fortunes pour référencer les sites pour trouver d'autres moyens, ils auront toujours une longueur d'avance à moins qu'en face, on ait un système beaucoup plus réactif. Et à mon avis "eh les mecs soyez gentils, bossez gratuitement pour google en taggant les liens des sites éditables", c'est pas très réactif...
        • [^] # Re: Bonne méthode?

          Posté par  . Évalué à 1.

          Entièrement d'accord, cette mesure ne fera que déplacer les liens bidons ailleurs. On pourrait même assister à la création de sites dont le seul but est de contenir des liens vers les sites à référencer.

          Cette mesure n'est efficace que s'ils peuvent pondérer la pertinence des liens en fonction de la crédibilité du site sur lequel ils sont (et non sur lequel ils pointent). C'est à dire que la mesure permet de ne pas prendre en compte des liens placés sur des sites crédibles. Ceux placés sur des sites non crédibles étant de toute façon peu/pas pris en compte.

          J'ai l'impression que cette mesure n'est que la partie émergée d'un iceberg qu'on n'a pas encore vu. Oui je sais je frise le délire paranoïaque, mais par exemple j'avais entedu dire que (j'aime les phrases qui commencent comme ça ;-) Google disposait d'une implémentation permettant de générer des resultats différents en fonction de "qui" effectue la recherche....
          • [^] # Re: Bonne méthode?

            Posté par  (site web personnel) . Évalué à 3.

            On pourrait même assister à la création de sites dont le seul but est de contenir des liens vers les sites à référencer.

            Mouarf, ça existe depuis belle lurette.

            Cette mesure n'est efficace que s'ils peuvent pondérer la pertinence des liens en fonction de la crédibilité du site sur lequel ils sont (et non sur lequel ils pointent).

            C'est exactement comme ça que fonctionne le PageRank.
            • [^] # Re: Bonne méthode?

              Posté par  . Évalué à 3.

              C'est exactement comme ça que fonctionne le PageRank.

              Non, je ne pense pas que le Page Rank soit utilisé pour calculer le PageRank !

              Ma compréhension (j'avoue ne pas avoir étudier ça de très près) est que le PageRank est grosso-modo corrélé à la fonction suivante :
              pr(site) = Nombre [l: liens vers {site}](en excluant les liens qui sont sur site)
              En français, c'est le nombre de liens qui pointent vers le site dont on calcule le page rank.

              Avec l'introduction du nofollow, la fonction devient :
              pr2(site) = Somme [l: lien vers {site}] ( follow( l ) )follow est une fonction qui vaut:
              - 0 si l'attribut nofollow est présent
              - 1 sinon.

              Ce que je tentais d'expliquer c'est que dans ce cas, les liens vont simplement être déplacés ailleurs, de telle sorte qu'ils soient toujours comptabilisés. Donc cette mesure n'aura en pratique aucun effet, donc si Google l'introduit c'est qu'il doit y avoir une autre raison.
              Je supposais donc que Google disposais d'un moyen de pondérer l'importance des liens en fonction du site sur lequel ils sont placés, car le problème, en fin de compte, est l'exploitation de sites "sérieux" pour promouvoir des sites ... qui le sont moins. Dans ce cas la formule devient :
              pr3(site) = Somme [l: lien vers {site}] ( follow( l ) * crédibilité( origine( l ) ) )
              crédibilité est une fonction qui renvoie une valeur entre 0 et 1 (aux extrèmes : 1 si le site est très crédible, 0 s'il ne l'est pas du tout), et origine est une fonction qui renvoie le site sur lequel est lu le lien (en gros le site en cours d'analyse par le robot).

              crédibilité ne peut pas être le page rank (en supposant par exemple un calcul itératif), parce que dans ce cas cela renforcerait les sites qui sont artificiellement promus par les liens parasites (en leur attribuant une crédibilité qu'ils n'ont pas).

              J'espère avoir été un peu plus clair, bien que je me rende compte que ce n'est pas trivial à expliquer.

              Note : Ayant dit cela, je viens de relire l'article et je réalise que la solution n'est pas supposée résoudre le problème de page rank gonflé, mais simplement d'éviter la pollution des sites en rendant cette pollution inefficace. En fait je me suis laissé abuser par le commentaire initial, qui a fait la même confusion.
              Désolé !
              • [^] # Re: Bonne méthode?

                Posté par  (site web personnel) . Évalué à 3.

                Non, je ne pense pas que le Page Rank soit utilisé pour calculer le PageRank !

                Je pense que si, je crois me souvenir l'avoir lu quelque part, mais je n'ai pas de lien sous la main ni le temps de le rechercher. Ça pose le problème des « boucles de PageRank » que tu présentes, mais rien ne dit que Google n'utilise pas d'autres sources pour évaluer la popularité et le sérieux d'un site, et n'a pas mis en place des mécanismes pour détecter les groupes de sites se promouvant mutuellement sans influence extérieure. Google emploie des gens très brillants, et dispose d'une puissance de calcul extraordinaire ; l'erreur la plus fréquente commise dans les discussions à leur propos est de les sous-estimer fortement.
              • [^] # Re: Bonne méthode?

                Posté par  (site web personnel) . Évalué à 3.

                > Non, je ne pense pas que le Page Rank soit utilisé pour calculer le PageRank !

                Il l'est.
                Il l'était dans l'algo initial de Google (qui est connu, du moins dans ses principes).
                Il l'est toujours, les référenceurs s'amusent fréquement à ça et quand tu fais un échange de lien on te demandera toujours ton PR pour savoir quelle importance aura ton lien pour le calcul de la page ciblée.

                Si le détail de l'algo de Google n'est pas connu, les grandes lignes (dont ce point) sont loin d'être des secrets et ont pu être testés maintes et maintes fois.
          • [^] # Re: Bonne méthode?

            Posté par  (site web personnel) . Évalué à 1.

            > On pourrait même assister à la création de sites dont le seul but est
            > de contenir des liens vers les sites à référencer.

            Pour Google ça serait embêtant (note: ces sites existent déjà et ils posent déjà problème) mais ça ne serait pas pire. Pour les blogs/wiki ça résoudrait dors et déjà le problème.
            Bon, finalement ça vaut le coup, non ?
        • [^] # Re: Bonne méthode?

          Posté par  (Mastodon) . Évalué à 6.

          Une IP qui clique sur 3 liens en 30s après une recherche, ça veut certainement dire que les 2 premiers ne lui ont pas plu.

          Hmm, grâce à la super fonctionnalité des vrais navigateurs graphiques, qui s'appelle les onglets, il m'arrive souvent d'ouvrir d'un seul coup les quelques premiers résultats d'une recherche google, histoire que tout soit chargé le temps que je regarde le premier, et que si il ne me convient pas je vais voir les autres, mais sans délai.
          Enfin ça améliore ma navigation je trouve, parce qu'on ne peut pas toujours savoir si un lien est potentiellement intéressant rien qu'en regardant l'extrait de page fourni par google.

          Yth.
  • # Quel rapport avec la choucroute

    Posté par  . Évalué à -10.

    Malgré la qualité de l'article, quelle est le rapport à cet article avec Linux et/ou le libre ?
    • [^] # le goût gueule

      Posté par  (site web personnel) . Évalué à 4.

      Tu es libre d'utiliser ce système sur un site parlant de linux. Voilà un rapport qu'il est bon !

      L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

    • [^] # Re: Quel rapport avec la choucroute

      Posté par  (site web personnel) . Évalué à 9.

      quelle est le rapport à cet article avec Linux et/ou le libre ?

      Linux et/ou le libre n'utilise jamais de wiki, c'est bien connu. D'ailleurs c'est simple, il n'en a jamais écrit. Quant aux blogs n'en parlons pas, seules des gamines de quatorze ans en ont, aucun développeur n'oserait s'en servir, ou développer librement un logiciel pour les gamines de quatorze ans. LinuxFr n'a lui-même jamais été victime d'une telle pollution, surtout pas ses pages de statistiques. Enfin, de manière plus générale, il est bien connu que le spam n'ayant rien à voir avec Linux et/ou le libre, tous les articles ayant un rapport avec cette célèbre marque de spécialités à base de porc sont refusés par l'équipe de modération.
  • # Ce n'est pas une solution contre le spam !

    Posté par  (site web personnel) . Évalué à 5.

    Un proverbe dit que ce que les spammeurs n’ont pas encore détruit, ce sont les solutions anti-spams de mauvaise qualité qui le détruiront. On nage en plein dedans.

    Et là, je doit dire que je viens de lire la plus belle connerie du monde. Ne pas augmenter le pagerank des spammers ? Mais je n’ai jamais vu un seul spammeur s’intéresser à son pagerank ! Toute personne qui étudie un peu le fonctionnement des spammeurs sait parfaitement que les domaines utilisés pour spammer ne restent pas en ligne plus de 15 jours, car justement les anti-spams ou les FAI les détectent. Je n’ai pas encore été spammé dans les commentaires, mais les spammeurs par referer qui ont tenté d’agir chez moi ont tous vu leur site web fermer dans les jours qui ont suivi. Aucun spammeur n’agit dans le but d’augmenter son pagerank. Ceux qui vraiment voudraient augmenter leurs pageranks seraient bien trop aisemment détectés par SURBL : http://www.surbl.org/(...) .

    Ils spamment dans le but d’augmenter leurs visites, en espérant profiter des lecteurs du blog. Et non pas pour leurs pageranks. Qui part définition ne peut être élevé, puisque les sites ne restent pas en ligne longtemps. Et même à supposer que certains spammeurs font cela pour augmenter le pagerank en attendant que le site soit détruit, ils profiteront tout de même des visiteurs des blogs, et cela leur suffira pour continuer à spammer. Le problème du spam, c’est qu’il reste toujours 0,01% des personnes qui iront cliquer puis passer commander chez un spammeur. Il restera toujours, même après mise en place de cet attribut des gens pour cliquer sur des liens spammesques. Le retour est peu important par rapport au bruit que fait un spammeur, mais vu que la pollution de sites webs ou de boites mails ne lui a presque rien coûté, il continuera... Cela n'arrêtera pas le spam.

    Si vraiment le problème était dans le fait que le lien augmente le pagerank, il suffisait d’utiliser un script-wrapper qui fera une redirection, afin que la page ne soit pas visible directement dans google. Ou de détecter le googlebot et de ne pas lui présenter les liens, voire les commentaires.

    Au contraire, ces balises sont anti-productives. Combien de fois ai-je cité une page web en réponse à un problème dans un commentaire sur linuxfr ? De la sorte, les blogs et les liens intéressant finissent fort bien référencés. En rajoutant ce tag aux liens mis dans les commentaires, on casse une bonne partie du mécanisme permettant aux blogs d’être bien référencés.

    Alors, pourquoi une adoption massive dès l’annonce ? Pour tous, c’est une géniale opération marketing laissant penser que ces sociétés s’occupent du bien des bloggers, alors qu’au mieux ça ne change rien, qu’au pire cela sera contre-productif. Et quel intérêt y trouve google finalement ? Tout le monde sait bien que sur google les blogs sont fort bien référencés. En créant cette balise, ils vont pouvoir rééquilibrer la part des blogs dans leur moteur de recherches.

    Mais non, je dois être paranoïaque, je vois pas pourquoi je suis le seul à trouver là une régression. Et pourquoi des hebergeurs de blogs seraient en train de se tirer une balle dans le pied ? Les gens qui ont adopté ce tag savent-ils vraiment comment marchent les spammeurs ?

    C’était pas la peine d’attendre que Google se bouge quoi. Surtout si c’est un pis-aller qui sert également de solution à ce que certains voient comme un problème chez eux : le poids important que prennent certains weblogs dans les recherches. Il est si commun de voir des moteurs de recherches se faire payer pour bien placer certains sites, qui nous dit que google n’a pas d’intérêt à remiser derrière dans les recherches les sites non-commerciaux ? Cf GoogleWatch : http://www.google-watch.org/(...)

    Par contre, je ne nie que la balise peut servir, offrant un petit plus par rapport au fichier robots.txt. Mais ce n’est pas un anti-spam. Et à ne pas appliquer systématiquement.

    (oui, c'est une ressucé de là : http://maxime.ritter.eu.org/une-solution-anti-spam-a-la-con-de-plus(...) , mais j'ai le droit, c'est ma prose).
    • [^] # Re: Ce n'est pas une solution contre le spam !

      Posté par  (site web personnel) . Évalué à 9.

      "la plus belle connerie du monde"

      Je me permet de d'attribuer le meilleur prix du mec qui ne sait pas relativiser ou poser ses propos :-)

      C'est peut-être pas efficace sur tous les spams mais je te promet que de nombreux sites sont pollué d'url dans le but de faire monter les pages-ranks. Si mon livre d'or est maintenant modéré c'est pour cette raison. J'en avait marre des gens qui me disait que mon site était bien et qui m'invitait à aller visiter le leur (casino-online.truc). Ces sites existent toujours et c'est donc bien dans le but d'augmenter le page-rank que c'est utilisé.

      Pour le reste je rejoins ce que tu dis mais sans les exagérations dont tu es friand :)

      L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

      • [^] # Re: Ce n'est pas une solution contre le spam !

        Posté par  (site web personnel) . Évalué à 1.

        Ton livre d'or est pollué ?

        Bien, alors tu vérifies si les URLs sont dans SURBL avant de les poster. S'il y a des spammeurs qui jouent au pagerank, ils y seront.

        Sinon, ce sont des spammeurs qui jouent à faire de la promo de la même manière que par mail, et dans ce cas, cette balise ne les arrêtera point.

        De toute évidence, rien ne les arrêtera. Je doit faire ici la liste de toute les méthodes qui ont été inventés contre les spammeurs par mail ? RBL, DCC, Razor, Pyzor, SURBL, les filtres à expressions régulières, les filtres bayesians, le screensaver lycos, les plaintes de la CNIL, et euh, j'en oublie pleins.
        • [^] # Re: Ce n'est pas une solution contre le spam !

          Posté par  (site web personnel) . Évalué à 2.

          Si SURBL est si efficace alors il faut en parler aux développeurs de blogs / wiki / ... pour intégrer une vérification des liens via ce site non ?
          Ou même en parler à l'équipe de Google ?

          L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

          • [^] # Re: Ce n'est pas une solution contre le spam !

            Posté par  (site web personnel) . Évalué à 2.

            Google a tendance à supprimer de son index les sites qui ont recours au spamdexing ; le spam de wiki et de commentaires étant une forme de spamdexing, il est fort probable que google ait déjà supprimé de son index plusieurs des sites des spammeurs de commentaires...

            La question que je leur poserais plus volontiers, c'est comment ils ont fait pour trouver ces sites spamdexés. Et ensuite, de voir pourquoi cela ne serait pas applicable, ou pouquoi cela n'a pas été appliqué, aux spammeurs de commentaires... Et qui sait, peut-être leur proposer un check façon SURBL ?
    • [^] # Re: Ce n'est pas une solution contre le spam !

      Posté par  (site web personnel) . Évalué à 8.

      Ce n'est pas une solution contre le spam !

      Non, c'est un outil.

      Tu as raison, il ne viendra pas à bout de toutes les formes de spam, et ne remplace pas magiquement les autres outils développés pour l'occasion. La vigilance reste de mise. Pas la peine de t'emporter grandiloquament pour autant.

      qui nous dit que google n’a pas d’intérêt à remiser derrière dans les recherches les sites non-commerciaux ? Cf. GoogleWatch : http://www.google-watch.arg/(...)

      Et qui nous dit que GoogleWatch est un observateur impartial et désintéressé ? Cf. http://www.google-watch-watch.org/(...)
    • [^] # Re: Ce n'est pas une solution contre le spam !

      Posté par  (site web personnel) . Évalué à 4.

      Je ne m'étais jamais donné la peine d'aller visiter GoogleWatch.

      Voici mes impressions :

      - Ce site est laid (mais bon, c'est subjectif)
      - Il a l'air inutilement alarmiste et remplis de FUD.

      Il y a des gens qui prennent vraiment ce qui s'y dit pour argent comptant ?
      • [^] # Re: Ce n'est pas une solution contre le spam !

        Posté par  (site web personnel) . Évalué à 3.

        Laid ? Subjectif, mais ce qui compte c'est l'info, non ?

        Alarmiste, oui. Inutilement, non. Google commence à avoir un monopole assez malsain de la recherche de l'information. Les dangers des monopoles sont réels, et je pense que ce n'est pas la peine d'expliquer sur un site consacré à Linux les dangers des monopoles dans l'informatique. Mieux vaux tirer la sonnette d'alarme avant qu'il ne soit trop tard. Google se sait surveillé par Google Watch, donc d'une certaine manière ca les oblige a avoir une conduite irréprochable. Il y a quand même de grosses zones d'ombre dans la manière dont google travaille, ils cultivent le secret, difficile de savoir ce qu'ils collectent, il est donc permis de prévoir le pire. Et dans tous les cas, il convient de se méfier d'un monopole, surtout de la part d'une société qui cultive le secret ; le logiciel libre cultive l'ouverture lui si on peut faire une comparaison.

        Quand je vois des gens dire «google est ton ami».... Non, google est l'ami de personne, ou alors juste de ses actionnaires. Car comme tout SA, tout ce qui l'intéresse c'est son bénéfice.
        • [^] # Re: Ce n'est pas une solution contre le spam !

          Posté par  . Évalué à 7.

          En gros ce que tu dis, c'est que "surveiller google est important", ca je te plussoie la-dessus sans probleme.

          Malheureusement, google-watch lui-même nage dans le clairement n'importe quoi, c'est plus un hargneux qui en veut personellement a google parce que son site a pas marche, pense-t'il, a cause de ce moteur de recherche[1], et qui est pret a utiliser n'importe quel argument foireux[2] pour les salir, qu'une source d'infos fiable et vigilante sur un monopole en devenir.

          Bref, vivement qu'un autre site traite mieux de ce sujet important

          [1] CF http://www.google-watch-watch.org/(...)
          [2] Allez sur google-watch, il y a un argument frappant car visuel :
          "Not found in google : [Photos de torture d'Abu Grahib]
          Rappelez-vous, comme le disait Napoleon, Il ne faut jamais chercher de la malignite, la ou quelquechose s'explique tres bien par l'incompetence"
          En l'occurence, comme cela a ete demontre sur slashdot, il s'agit simplement de ce que le moteur de recherche d'images de google est completement pourri, et met des mois et des mois a se mettre a jour. Google-watch continue a utiliser cet argument => credibilite zero ! Et c'est tres triste, car encore une fois, le sujet est important.
          • [^] # Re: Ce n'est pas une solution contre le spam !

            Posté par  (site web personnel) . Évalué à 3.

            Tout a fait. C'est typiquement un mec qui cherche pour chaque action de google a l'interprter de la facon la plus mauvaise et qui ne demord jamais de son opinion negative.

            Si google doit etre surveille, esperons que ce sera pas un groupe plus intelligent que lui.
    • [^] # Re: Ce n'est pas une solution contre le spam !

      Posté par  . Évalué à 3.

      Je comprends pas trop.

      J'ai un wikini qui a été repéré par un spameur de sites à "images".
      Depuis 6 mois avec la même plage IP j'ai des requêtes POST vers 6h du mat sur mon site avec les referrers à promouvoir.
      Pourtant la page n'existe plus, et pour cette plage IP toutes les pages du site renvoient une erreur 404 depuis 5 mois. J'ai aussi envoyé un mail au fournisseur du service (peut être que je me suis planté d'adresse donc passons).
      Une petite recherche sur google m'a montré qu'un petit paquet de site wikini sont aussi pollués par ce type de spam.

      Il me semble que ton propo est plus adapté au spam par mail ou les sites existent effectivement 15 jours et encore.
      • [^] # Re: Ce n'est pas une solution contre le spam !

        Posté par  . Évalué à 4.

        toto il a un script qui fait ça tout seul à sa place. d'ailleurs il l'a peut-etre même acheté et ne sait pas comment il marche.

        toujours est-il qu'il ne va pas passer de temps à analyser les logs ou à enlever des adresses de sites "protégés" : ça serait une perte de temps pour lui, alors qu'il a bien mieux à faire, à savoir trouver de nouveaux sites à polluer pour les donner à manger à son script.


        puisque l'execution de son script est automatique et se fait en parallèle de ses manipulations à lui, il s'en *fout*, mais alors *complet*, de faire le ménage dans ses listes, tant qu'il ne sature pas sa bande passante ou son ordi par exemple.

        et même là, il ne va pas la trier avec amour, hein, sa liste, il va repartir de zéro, avec juste ses quelques sites favoris pour commencer.
        • [^] # Re: Ce n'est pas une solution contre le spam !

          Posté par  (site web personnel) . Évalué à 2.

          Oui, mais le jour ou le site change, je suis pas sur que toto, il se fasse ch*er a modifier son script si il n'a rien a y gagner ...
          • [^] # Re: Ce n'est pas une solution contre le spam !

            Posté par  . Évalué à 2.

            mais c'est un gros con de branleur qui s'en contrefout, le toto ! mille fois pire que le marseillais qui passe sa vie à cracher par terre dans la rue ou le fumeur qui balance son mégot sans même viser le caniveau.

            c'est juste une URL, une ligne parmi 1000. la première fois qu'il passe sur le site, section commentaires ou livre d'or, il en rentre peut-être un à la main pour vérifier, il est ravi, il fout l'URL dans sa liste et il est *heureux*.

            il va chercher des sites similaires dans Google parce que c'est un gros malin, mais clairement, il ne va *même pas* regarder si le site se fait correctement spammer ou pas les fois suivantes : perte de temps totale, pour lui.


            c'est seulement quand il va devoir changer de liste ou la recréer à partir de zéro parce qu'il vient d'exploser sa machine qu'il va peut être oublier ton site. pour un temps.


            (ah, et d'ici à ce qu'il comprenne que la manipulation en général ne marche plus, il coulera de l'eau sous les ponts. ça serait comme expliquer poliment aux gens qui cherchent des fichier form.pl que tous les Apache de la planète sont patchés depuis des années)
            • [^] # Re: Ce n'est pas une solution contre le spam !

              Posté par  (site web personnel) . Évalué à 3.

              > il fout l'URL dans sa liste et il est *heureux*.

              Et son script devine tout seul la procédure pour soumettre un commentaire, même si elle a changé depuis la creation du script ? Genre, si sur ton site de blog/forum/autre, tu change le nom des champs POST pour poster le commentaire, le script a 2 balles de toto, il va s'en rendre compte et il va s'auto-modifier pour en tenir compte ?

              Ben non, donc, si tu modifie un peu ton site, bah le script de toto, il marche plus. Ensuite, toto peut patcher son script, ou plutot attendre la version n + 1. Mais ça, ça demande un effort à l'auteur du script.
              • [^] # Re: Ce n'est pas une solution contre le spam !

                Posté par  . Évalué à 2.

                comme j'ai dit, il s'en moque, donc tu vas continuer à prendre des requetes incorrectes dans les dents et générer les 404 et autres dont tu parlais.

                (et coder quelque chose qui lit les noms des champs dans le FORM me semble trivial, mais n'allons pas leur donner de bonnes idées...)
              • [^] # Re: Ce n'est pas une solution contre le spam !

                Posté par  (site web personnel) . Évalué à 1.

                Genre, si sur ton site de blog/forum/autre, tu change le nom des champs POST pour poster le commentaire, le script a 2 balles de toto, il va s'en rendre compte et il va s'auto-modifier pour en tenir compte ?

                Il est bien évident que le script à deux balles de toto n’est pas à deux balles, il est bien foutu, de mieux en mieux foutu, et il ne s’occupe pas du nom du champ mais va plutôt chercher le plus grand champ texte de la page, par exemple.
    • [^] # Re: Ce n'est pas une solution contre le spam !

      Posté par  (site web personnel) . Évalué à 4.

      > Mais je n’ai jamais vu un seul spammeur s’intéresser à son pagerank !

      On ne parle pas des spam mails, mais des spam wiki / forum / blog. Ceux là sont clairement réputés pour s'occuper uniquement du page rank. Quand tu vois un post avec 150 fois le même lien sans texte, tu crois que c'est pour quoi ?

      > justement les anti-spams ou les FAI les détectent.

      Tu parles de quoi là ? tu nous fais un commentaire de 50 lignes et j'ai l'impression que tu parles des mails, ici on parle de spam dans les commentaires de blog ou dans les wiki, pas dans les mail.
      Dans les comentaires il n'y a pour l'instant pas vraiment de solution anti-spam et les FAI n'ont rien à voir dans l'histoire.
      Après certes l'auteur les détecte, mais il est emmerdé quand même. Et quand on est cible d'un spam c'est très régulièrement qu'on est spammé. Sauf à rester devant l'écran il faut faire quelque chose. Ca veut dire recoder un filtre spécifique à chaque spam différent. C'est lourd.

      > il suffisait d’utiliser un script-wrapper qui fera une redirection

      C'est une des solutions. Sauf que si le wrapper fait une redirection permanente Google le voit, et augmente bien le page rank de la bonne page. Ca ne marche pas.
      Certains on fait des redirections qui passent par Google pour virer le pagerank mais ça fait des requêtes en plus.
      Et *surtout* ce qui est intéressant avec cette méthode c'est que tout le monde déclare vouloir l'implémenter et que tous les blogs l'implémentent.
      Si tu as ta solution anti-spam ça t'évite d'être pourri. Par contre si tout le monde fait en sorte que le but du spam (le pagerank) ne soit pas atteint, alors le spam s'éteindra de lui même. La force cde cette solution c'est qu'effectivement elle permet d'annuler les effets de tout le spam sans en oublier, et que tout le monde l'implémente.

      > De la sorte, les blogs et les liens intéressant finissent fort bien référencés

      Si ton contenu est intéressant il finira toujours pas être repris ailleurs que dans un commentaire (par exemple dans le corps d'un article de blog)

      > Alors, pourquoi une adoption massive dès l’annonce ?

      Parce que c'est *à cause* de cette adoption massive que ça peut marcher. Sinon c'est "yet another anti spam solution". Sinon ca ne décourragera pas les spammeurs (puisque ça marchera toujours, même si un peu moins bien). Ce n'est intéressant que parce que les principaux logiciels et moteurs de recherche l'implémentent, ensemble, et font du bruit autour.

      > qui nous dit que google n’a pas d’intérêt à remiser derrière dans les recherches les sites non-commerciaux

      Il peut *déjà*, très facilement, pondérer tous les blogs des outils principaux (c'est à dire tous les blogs à quelques exceptions près). Le propre de cette solution c'est justement de ne pas remiser le blog mais juste les commentaires externes.
      Le deuxième point propre de cette solution c'est "si tu ne veux pas l'implémenter tu n'y es pas obligé". Donc l'histoire du complot de Google ne tient plus.
      D'ailleurs sur le principe c'est une vieille requête des bloggueurs, pas une invention de google. Du coup là aussi l'histoire du complot des grosses sociétés qui veulent faire du marketing ne tient plus.


      Je crois que tu n'as pas tout compris, et que visiblement tu n'as pas conscience du spam pratiqué sur les blogs (ou du but de ce spam)
      • [^] # Re: Ce n'est pas une solution contre le spam !

        Posté par  (site web personnel) . Évalué à 0.

        On ne parle pas des spam mails, mais des spam wiki / forum / blog. Ceux là sont clairement réputés pour s'occuper uniquement du page rank. Quand tu vois un post avec 150 fois le même lien sans texte, tu crois que c'est pour quoi ?

        Pour rendre le spam visible. Lorsqu'un message occupe 90% de la page avec que des liens, cela attire l'oeil.
        Oui, evidemment, cela facilite aussi le travail des moteurs de recherches. Mais dans ce cas, il n'y avait pas besoin d'attendre google : le spammeur préoccupé par son PageRank peut être détecté par des SURBL. Il était aussi possible de réécrire les liens pour pas que le liens soit direct. Il est aussi possible de ne pas présenter les liens aux moteurs de recherche. Alors, pourquoi cette solution ??

        Dans les comentaires il n'y a pour l'instant pas vraiment de solution anti-spam

        Parce que personne ne s'est donné la peine de les coder ? Utiliser SURBL marcherait très bien contre ceux qui jouent au PageRank. Un filtre baysian, un filtre à expressions régulières, tout ça aussi peut s'appliquer aux commentaires. C'est juste parce que personne ne s'est donné la peine de les programmer. Encore que, si, justement, ces filtres existent pour nombre d'outils de blogging.

        Si ton contenu est intéressant il finira toujours pas être repris ailleurs que dans un commentaire (par exemple dans le corps d'un article de blog)

        Même avec nofollow, le moteur le prendra en compte. Le problème est dans le calcul du PageRank.

        Parce que c'est *à cause* de cette adoption massive que ça peut marcher.

        Et les spammeurs continueront de spammer, parce qu'entre temps le prix de la BP aura encore diminué, il leur suffira de spammer les commentaires et de viser les clics de ceux qui lisent le blog/wiki uniquement, ils veront que c'est rentable, et ils continueront.

        Si tu veux, on prends les paris : je met ça dans mon site, et dans 6 mois, on constate que les attaques ont encore augmenté. La dernière fois qu'on m'a promis un anti-spam qui tuerait le spam par mail, j'ai dit exactement pareil. Alors, ou en sommes-nous avec SPF?

        D'ailleurs sur le principe c'est une vieille requête des bloggueurs, pas une invention de google.

        En effet, c'est une de leurs requêtes. Alors qu'ils auraient pu rentrer un check SURBL dans leurs outils de blogging et résoudre le problème eux-même... D'ailleurs là maintenant, il faut aussi recoder les outils...

        Je crois que tu n'as pas tout compris, et que visiblement tu n'as pas conscience du spam pratiqué sur les blogs (ou du but de ce spam)

        Si, si, mais je crois surtout que ceux qui voient nofollow comme le messie n'ont rien compris à comment travaillent les spammeurs.
        • [^] # Re: Ce n'est pas une solution contre le spam !

          Posté par  (site web personnel) . Évalué à 5.

          Autrement dit, si j'ai bien suivi tes questions, on peut résumer tes messages par :

          « Pourquoi utiliser une technique simple à mettre en oeuvre alors qu'il suffirait de programmer plein d'outils gourmands en resources pour résoudre le problème ? »

          La solution de Google ne demande que d'ajouter quelques caractères dans certains liens, elle est indépendante du langage, très peu coûteuse en CPU et en mémoire, et ne fait aucune requête vers des resources externes.

          Les solutions que tu proposes nécessitent l'utilisation d'environnements de programmation particuliers, ou la reprogrammation d'algorithmes assez complexes. Elles sont, selon les cas, très gourmandes en mémoire et en temps CPU, ainsi éventuellement qu'en resources réseau. Dans certains cas elles dépendent d'un serveur externe, dont la fiabilité n'est pas garantie.

          Je ne dis pas qu'elles sont inutiles, peut-être à terme seront-elles mêmes indispensables. En attendant, la technique proposée par Google ne coûte rien, fonctionne partout, et il ne faut donc pas s'étonner que la plupart des gens la voient d'un bon oeil. Reste à voir si elle sera efficace.
          • [^] # Re: Ce n'est pas une solution contre le spam !

            Posté par  (site web personnel) . Évalué à 2.

            Non, la solution SURBL est très peu consommatrice en ressources (il faut juste une requête DNS), et très simple à programmer... Or la solution google nécessite aussi de reprogrammer les scripts d'acceptation ou d'affichages des commentaires, et a comme énorme inconvénient de changer en profondeur le calcul des pagerank. De même que la solution de cacher les liens des commentaires à google est presque encore plus simple à mettre en oeuvre, et non consommatrice de ressources.

            Donc là où c'est possible, pourquoi tout le monde devrait se mettre à utiliser nofollow ? Surtout que je prévois d'ici son manque d'efficacité, même sur les sites qui l'employent. Les spammeurs soient continueront d'espérer tomber sur des sites non patchés, soient continueront de spammer en profitant juste des clics des visiteurs du blog/wiki spammé.

            Ca leur suffira, vu comment ils attaquent le mail. La solution est donc inefficace et dangereuse. Alors a quoi bon l'utiliser ?
            • [^] # Re: Ce n'est pas une solution contre le spam !

              Posté par  (site web personnel) . Évalué à 5.

              > Les spammeurs soient continueront d'espérer tomber sur des sites non patchés

              Non, parce que contrairement au spam email, un robot qui spamme un blog/wiki a été programmé spécifiquement pour ce blog/wiki. Il faut comprendre le fonctionnement des URL pour aller sur les différents billets et il faut au minimum le nom des champs impliqués.

              Maintenant, si dans l'outil X j'implémente le nofollow et que dans la même version je change le nom des champs. Le spammeur, si n'a rien à gagner à modifier son robot. Il sait que tous les sites qui auront ces nouveaux noms de champs auront aussi le nofollow. Du coup il ne programmera pas son robot pour la nouvelle version et la nouvelle version se verra exempte des spam destinés au pagerank.

              C'est aussi en ça que la situation des blogs/wiki est totalement différente de la situation des mails. Et le but du spam et le moyen de le faire n'a rien à voir.
        • [^] # Re: Ce n'est pas une solution contre le spam !

          Posté par  (site web personnel) . Évalué à 2.

          > si tu veux, on prends les paris : je met ça dans mon site

          Attention, l'effet ne dépend pas de ce que tu fais sur ton site mais de ce que la globalité des gens fait. Que toi personnellement tu mettes le nofollow ou pas ça ne changera effectivement rien à "ton" spam.
          Par contre si tous les gros moteurs de blog & wiki le font ça aidera probablement à limiter le spam de ce type d'outil de manière globale.
        • [^] # Re: Ce n'est pas une solution contre le spam !

          Posté par  (site web personnel) . Évalué à 2.

          ils auraient pu rentrer un check SURBL dans leurs outils de blogging et résoudre le problème eux-même

          Un check SURBL c'est une contre-attaque. Pour qu'une URL y soit il faut qu'elle est déjà emmerdé quelqu'un. Le nofollow, c'est une petite manip qui enlève tout intérêt à l'attaque elle-même.

          Arrête de confondre zeaiujk.biz qui dure dix jours, url envoyée par mail, et casino-machin.com qui est un site qui dure, aussi; c'est pénible. SURBL c'est fait pour les domaines jetables, le spam de blog c'est fait pour les domaines qui durent - tout le monde te le dit depuis hier, faudrait peut-être que ça te rentre dans la tête.
          • [^] # Re: Ce n'est pas une solution contre le spam !

            Posté par  (site web personnel) . Évalué à 2.

            « Un check SURBL c'est une contre-attaque. Pour qu'une URL y soit il faut qu'elle est déjà emmerdé quelqu'un. »

            Un spammeur qui vise le pagerank ne changera pas souvent d'URL. Il y sera listé donc. Et si SURBL ne liste pas les spammeurs de PageRank, il existe d'autre blacklist de domaines qui peuvent être utilisés. On peut imaginer créer une blacklist de spammeurs par mots-clefs.

            C'est pour contrer les initiatives à la SURBL que les spammeurs changent souvent d'URL. Or quand on change souvent d'URL, on ne peut pas viser le spamming du pagerank.

            « Arrête de confondre zeaiujk.biz qui dure dix jours, url envoyée par mail, et casino-machin.com qui est un site qui dure, aussi; c'est pénible. »

            Je ne confonds rien du tout dans l'histoire...
          • [^] # Re: Ce n'est pas une solution contre le spam !

            Posté par  . Évalué à 2.

            un problème est qu'on pourrait croire que tous ces beaufs vont arreter d'un coup parce que 'nofollow' vient de sortir ou modifier lentement leurs habitudes . comme déjà exprimé ailleurs, le simple fait que "ça enlève tout interet" ne va rien changer. oh non. ce n'est pas comme ça que ça fonctionne.


            et aussi, je ne vois pas pourquoi SURBL ou une variante pourrait ne pas gérer les urls du type casino-machin : ce sont juste des listes de sites de méchants.

            http://wiki.ael.be/index.php/RecentVisitors?action=diff&previou(...)
    • [^] # Re: Ce n'est pas une solution contre le spam !

      Posté par  (site web personnel) . Évalué à 10.

      « (oui, c'est une ressucé de là : http://maxime.ritter.eu.org/une-solution-anti-spam-a-la-con-de-plus(...)) , mais j'ai le droit, c'est ma prose) »


      Wah l'autre !
      Il se sert de LinuxFr pour augmenter son pagerank !
    • [^] # Qui a parlé de spam ?

      Posté par  . Évalué à 1.

      Je ne vois pas la moindre allusion au spam dans cet article. On n'y parle même pas de mail.

      On y parle par contre de la pollution des liens entre sites, et des robots de moteurs de recherche qui suivent automatiquement les liens sans avoir - jusqu'à maintenant - le moyen de savoir s'ils étaient pertinents ou pas.

      Il n'est pas nécessaire qu'un utilisateur clique sur un lien pour que celui ça fasse monter le pagerank de la page (et du site) cible du lien.

      Pourquoi tant de vent pour finalement un hors sujet ?
  • # Commentaire supprimé

    Posté par  . Évalué à 0.

    Ce commentaire a été supprimé par l’équipe de modération.

  • # Ce n'est pas une protection contre les spameur et les pollueurs de site.

    Posté par  (site web personnel) . Évalué à 3.

    C'est une protection contre le "google bombing".
    Le but et uniquement que les moteur n'accreditent pas ces liens à la popularité des sites sur lesquels ils pointes
  • # Google suit-il sa propre politique ?

    Posté par  . Évalué à 1.

    Pour ma part, je suis étonné de ne lire null part la question (pourant légitime, AMHA) : Google va-t-il appliquer sa propre politique à lui-même ?

    En effet, Google a une campagne de spam^H publicité : AdWords - https://adwords.google.com/select/(...) (comment on fait déjà dans LinuxFr pour qu'il ne suive pas les liens ? ;-) qui pullulent sur plein de pages où les auteurs croient sans doute qu'ils vont toucher le jackpot car leurs nombreux(?) visiteurs vont cliquer cliquer cliquer sur les liens de Google AdWords et que ça va leur rapporter plein de brouzouf.

    Je viens de regarder le code HTML d'un tel site AdWord'isé et je n'ai pas vu qu'ils avaient aussi cette politique... dommage !

    Enfin, les cordonniers et tout ça...
    • [^] # Re: Google suit-il sa propre politique ?

      Posté par  . Évalué à 0.

      dans le meme genre, j'ai ça dans /etc/hosts :

      127.0.0.1 pagead2.googlesyndication.com

      bon débarras
    • [^] # Re: Google suit-il sa propre politique ?

      Posté par  (site web personnel) . Évalué à 4.

      Les adwords prennent la forme d'un script JavaScript externe, or il ne me semble pas que le googlebot suive les liens dans les scripts JavacScript.

      De toute évidence, personne n'est mieux placé que google pour éviter de scanner son propre service publicitaire.... Pour le cas de régies qui marchent au clic (tels les adwords), c'est dans l'intérêt de la régie publicitaire d'éviter les clics de robots pour des raisons évidentes. La question reste pertinente néanmoins pour les publicités d'autres régies et/ou qui ne fonctionnent ni avec des scripts JavaScript, ni avec des redirections via la régie (99% des pubs sont déjà étanches au googlebot à leur insu en fait).

      Je pense que dans ce cas, les moteurs (et pas seulement google) se font effectivement avoir, et certains ont probablement amélioré le pagerank de leurs sites de la sorte.
  • # Titre racoleur

    Posté par  . Évalué à 1.

    "Google contre la pollution des sites web", c'est un titre un peu gonflé, non ?

    En fait, c'est pour pallier les déficiences de leur propre algorithme, oui ! C'est un peu comme quand Microsoft s'allie avec tant d'autres pour faire une plate-forme soi-disant sécurisée et qu'ils font en sorte qu'on ne puisse plus mettre que des logiciels d'éditeurs assez friqués pour payer les certificats de leurs logiciels...

    Dommage, car j'aimais bien le PageRank...
    • [^] # Re: Titre racoleur

      Posté par  . Évalué à 6.

      Google doit se doter d'une ligne éditoriale et faire le ménage (blacklister) ces milliers de sites et millions de pages artificielles qui n'apportent aucun contenu et salopent ce que Google affiche sur ses pages, à savoir des résultats pourris.


      ce n'est pas de la censure, attention, je ne parle pas de juger que du contenu est illégal ou inapproprié avant de le supprimer. je parle de faux sites, sites bidons, faux annuaires et moteurs de recherches bidons et autres farm link d'ailleurs souvent à l'abandon et totalement sans apport de contenu ou d'information pour le visiteur.

      par exemple, une recherche sur related:www.comprar-online.org/ventana_excel.htm revelera tout plein de sites bidons batis sur le meme modèle, appartenant à la même personne, et aboutissant en général au meme site final, un site d'affiliation pour des sonneries et autres conneries, et surtout avec un id=12345, donc toutes ses pages (et les autres qui n'apparaissent pas dans cette recherche là) ne servent qu'à faire le rabbatage vers un site qui lui revendra quelques % sur chaque vente réalisée. qu'est ce que LUI apporte au visiteur en terme d'information ou de contenu ? rien.


      si Google persiste à ne pas vouloir reconnaitre les problèmes qui se passent sous son nez, le premier concurrent qui en tiendra compte raflera le gros lot. et pour l'utilisateur, ça peut être aussi simple qu'une case de préférences à cocher "utiliser USRBL" ou meme "pas de comparateur de prix", "pas de cul", etc.

      ah, et qu'on ne vienne pas me dire "bwahaha tu te fais des films, Google est indétronable" : il y a 10 ans, le moteur de recherche indétronable, le bijou technologique qui faisait le tour du Web en trois jours (oui monsieur !), c'était Altavista. et ce n'est pas qu'il est mort depuis, mais il a sacrément mal aux dents. et Digital aussi, d'ailleurs.

      (dans le même style, Netscape Navigator était indétronable en 1995/1996. ça s'est gâté après, et pas seulement à cause de Microsoft. le public EST versatile)
      • [^] # Re: Titre racoleur

        Posté par  (site web personnel) . Évalué à 5.

        Et comment il fait google pour savoir que c'est une page artificielle ? Il en analyse le contenu ? C'est donc une personne qui doit le faire. Et tu crois qu'il va payer des 100aines de personnes à parcourir le web pour savoir quelles pages méritent d'être indéxées et quelles pages doivent être supprimées.

        Et puis entre "je vends des scoubidou, achetez mes scoubidous" et un vrai site commercial, tu fais comment la nuance ?

        Faudrait arrêter de croire que google c'est « quelqu'un ». Google est un "programme" (ok pas au sens ou nous l'entendons habituellement), qui plus est, un programme un peu con, alors facilitons lui la vie en marquant les liens "attestés" et les liens "non-vérifié". ça ne nous coûte rien, et si les moteurs de recherche en deviennent plus pertinent : le bénéfice sera pour nous.
        • [^] # Re: Titre racoleur

          Posté par  . Évalué à 6.

          qui a enterré Altavista à l'époque ? Yahoo avec ses pauvres humains qui classaient le web par catégories, justement parce que Altavista devenait salement pollué. le moteur de recherche de Yahoo était complémentaire de leur annuaire, pour ne pas dire secondaire. et ils viennent de faire 830 millions de dollars de bénéfices pour 2004, là, en passant.

          par certaines méthodes vraiment bateau on peut déceler automatiquement quels sont ces sites bidons et il suffit alors de valider les conclusions de ce qui n'est qu'un programme de datamining :

          comme je l'ai dit, il n'y a pas 36 façons de générer automatiquement des sites et des pages à l'infini dans le seul but d'apparaitre dans Google, ou plutot, il y a quelques esprits novateurs qui trouvent des idées et grosses ficelles et 30 000 grosses mouches qui les recopient.

          donc il y a quelques recettes de cuisine et façons de faire, et ça se voit assez vite quand on tombe sur une, on retrouve toute sa famille et sans être un grand détective on voit au moins quelques constantes, voir même s'amuser à les classer et à trouver qui est derrière. d'ailleurs on retrouve souvent les mêmes connards, année après année.


          avoir quelques personnes qui valident les résultats de détecteurs de farmlinks et autres tendances de fond ne me semblent pas surhumain. et ils ont déjà un "tableau de bord" pour surveiller l'usage qui est fait de Google. pour rappel, il y a quelques semaines, des vers visant phpbb utilisaient Google pour trouver de nouvelles plateformes cibles... idem il y a quelques mois pour un virus Windows.

          Google est un "programme" ? certes, mais il faut bien des humains pour surveiller son état de santé et de fonctionnement. il y en a aussi déjà qui sont là pour vérifier la qualité des résultats, même si ça n'est pas du temps réel. ils ont déjà des mots "tabous" et les lois de chaque pays viennent leur casser les glaouis pour des raisons de trademarks et autres menaces de procès (scientologie et autres). Il y a donc déjà des gens qui s'occupent du contenu. d'ailleurs, ils embauchent encore et encore.

          je souhaite juste qu'ils soient nettement plus actifs dans la chasse à toute cette catégorie de "tricheurs" et autres "optimiseurs de classements" qui salopent les résultats affichés par Google - le service de base que propose Google, et donc en gros la seule raison de s'y rendre.

          comme je suis d'un naturel pointilleux, j'aurais même souhaité que Google blackliste les pages des plaisantins ayant joué aux concours Nigratude Ultramarine et autres mangeurs de cigogne au fur et à mesure que ces dernières dépassaient un PageRank nul. juste pour apprendre à ses derniers à aller jouer ailleurs.

          on va me dire que je ne suis pas joueur et en fait juste un pisse-froid, je suis même prèt à le revendiquer. mais bref. si demain, Google est envahi "pour de bon" par le spam, ça sera vite vu, soit ils réagissent quite à investir, soit ils crèvent.
  • # De l'utilité des referers d'un wiki

    Posté par  (site web personnel) . Évalué à 5.

    Bon, je m'occupe du wiki d'erreur404, et nous avons subit des spameur pour des sites de viagra et des sites porno. Un petit .htaccess a réglé le problème en refusant la connexion pour les sites attaquant, qui ne sont pas si nombreux que ça, il suffit de choisir les bons mots clés.

    Car il y'a un revers a la médaille : Wikini par exemple propose d'avoir les références d'une page (referer), ce qui est un échange de bon procédés avec le site qui fait un lien vers le mien. En plus, pour google c'est tout benef : la page mp3legal par exemple de mon wiki, aura des referer vers des sites parlant aussi de cela.

    Bref, a mon gout si ça se généralise, google va perdre beaucoup de son interet, et comme dit plus haut cela va favoriser les sites commerciaux au détriment des blogs, wikis et autres sources d'informations généraliste.

    Je ne l'utiliserais pas, je préfère bricoler mes .htaccess et faire du ménage dans la base SQL de temps en temps, voir trouver une parade en php pour avoir une blacklist.

    Voir http://www.wikini.net/wakka.php?wiki=RechercheTexte&phrase=refe(...) pour les solutions envisagées par wikini.
  • # Désespérant ...

    Posté par  . Évalué à 7.

    Désespérant, c'est le mot qui me vient à l'esprit quand je lis tous ces commentaires (ici et ailleurs) sur ce sujet.

    Je suis d'accord avec les gents qui nous disent que Google par sa position monopolistique peut etre un problème à l'avenir. Mais ce que certaines personnes, dont je ne sais si c'est par parano ou par incompétence, nous raccontent je trouve ca grave.

    1) "Mais regardez sur le mail ..." : Ce n'est pas du tout le même sujet, les mêmes méthodes et les mêmes buts !Quand en plus on nous dit "SPF, ca n'a pas marché" oui bah regardons de plus près, pour que SPF marche, il faut que tout les acteurs du secteur soit d'accords (et la ce n'est pas le cas cf Sender-ID), de plus tout le monde ne reconfigure pas son sendmail|exim|postfix tout les jours. Pour que ca soit efficace, il faut :
    a) Que ca soit adopté par tout le monde (et, meme si j'aurais préféré que ca vienne du W3C, quand 3 acteurs majeurs essayent de proposer une solution commune c'est bien !)
    b) Que les solutions techniques suivent et surtout soit simple à mettre en oeuvre (d'ou l'accord avec les principaux moteurs de blog)

    2) "Mes liens ... ca va baisser le classement du blog ... gnagnagna" : Franchement, ca vous est déja arivé de programmer des moteurs de blog (ou autre plateforme à la LinuxFR). Cette technique est, d'un point de vue programmeur, extrèmement simple à mettre en oeuvre, et surtout, elle répond exactement au problème.

    3) "C'est du a la facon dont google fonctionne" : Bah oui, on est d'accord mais :
    a) Revenir à l'ancien modèle des robots : sans moi, j'aime bien trouver des résultats pertinants mais vous etes libre de le faire
    b) Inventer un nouvel algo : bah si google trouve un algo révolutionnaire, je fonce acheter des actions tout de suite, celui qui trouvera l'algo parfait pour le moteur parfait des 5 prochaine années s'assurera le quasi-monopole, si vous croyez qu'il ne le cherche pas, chez google, avec tout leurs ingés spécialiste en I.A...

    Bref, c'etait un coup de geule, je vous laisse dans le débat, moi je fonce recoder les commentaires de mon blog.

    NB: je suis triste, je vais plus pouvoir utiliser le lien "page perso" de LinuxFR pour faire monter des sites dans google, ca marché bien ... justement ...
    • [^] # Re: Désespérant ...

      Posté par  (site web personnel) . Évalué à 1.

      « 1) "Mais regardez sur le mail ..." : Ce n'est pas du tout le même sujet, les mêmes méthodes et les mêmes buts ! »

      C'est le même sujet : du spam. Les méthodes diffèrent, mais le but est le même : faire venir des visiteurs de manière frauduleuse sur un site.

      « regardons de plus près, pour que SPF marche, il faut que tout les acteurs du secteur soit d'accords (et la ce n'est pas le cas cf Sender-ID), de plus tout le monde ne reconfigure pas son sendmail|exim|postfix tout les jours.»

      Pour que SPF fonctionne, il faut rajouter des champs dans le DNS, ca prends pas 10 minutes à faire. Mais dès le départ on a dit que SPF ne servait à rien contre le spam, la preuve : http://www.computerworld.com/softwaretopics/software/groupware/stor(...)
      (autre preuve : ca n'a même pas ralenti le nombre de spams).

      Enfin si : SPF sert a tracker les usurpations d'identité, et ca doit un peu emmerder ceux qui font du phishing, ainsi que les warlordz qui voulaient usurper l'identité de quelqu'un. Et ca emmerde aussi ceux qui veulent faire du forward, vu que SPF en brise le mécanisme a moins de jouer avec.

      « Pour que ca soit efficace, il faut :
      a) Que ca soit adopté par tout le monde (et, meme si j'aurais préféré que ca vienne du W3C, quand 3 acteurs majeurs essayent de proposer une solution commune c'est bien !)»

      Et si cela ne marche pas, ce sera de la faute au fait que tout le monde ne l'a pas adopté. On m'a déjà fait le coup avec SPF.

      Si cela ne marche pas, c'est parce que les spammeurs ne visent pas que le PageRank (et d'ailleurs ceux qui visent le pagerank seraient faciles à détecter, pour peu qu'une URI-BL existe). Ils peuvent toujours continuer d'autres types de spamming de formulaires web. La réponse est inadapté au problème.

      « 2) "Mes liens ... ca va baisser le classement du blog ... gnagnagna" : Franchement, ca vous est déja arivé de programmer des moteurs de blog (ou autre plateforme à la LinuxFR). »

      Oui, ca m'est déjà arrivé. Ce n'est pas beaucoup plus difficile de coder d'autres types de checks, ou de détecter le googlebot pour ne pas lui présenter les liens.

      « NB: je suis triste, je vais plus pouvoir utiliser le lien "page perso" de LinuxFR pour faire monter des sites dans google, ca marché bien ... justement ... »

      Ben tu vois que toi aussi tu es emmerdé par les défauts de ce système
      • [^] # Re: Désespérant ...

        Posté par  (site web personnel) . Évalué à 4.

        >> « NB: je suis triste, je vais plus pouvoir utiliser le lien "page perso"
        >> de LinuxFR pour faire monter des sites dans google, ca marché
        >> bien ... justement ... »

        > Ben tu vois que toi aussi tu es emmerdé par les défauts de ce système

        Marrant, dans cet échange ce qui me semble être un défaut c'est justement que ça marche (et qu'on puisse abuser Google à partir de ça). Si ça supprime cette montée artificielle due au signature je vois plutot ça comme positif ;)
  • # Bonne réaction aux arguments « anti »

    Posté par  (site web personnel) . Évalué à 4.

    Sur Padawan.info, résumé des arguments de ceux qui se méfient de cette proposition, et excellente contre-argumentation :
    http://padawan.info/fr/web/nofollow_suivre_ou_ne_pas_suivre.html(...)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.