Journal Les employés de Microsoft aiment mon site Web

Posté par  (site web personnel) .
Étiquettes : aucune
34
12
août
2009
Quel étonnement ce matin en visualisant les statistiques de fréquentation d'un site Web commercial que je gère en utilisant Piwik. Pour information Piwik un logiciel libre de statistiques écrit en PHP.

La surprise est de taille, puisque le nombre d'internautes ayant utilisé le moteur de recherche Bing (anciennement Live Search) pour arriver sur le dit site Web était égal aux nombre d'internautes ayant utilisé Google... Le site Web en question a une fréquentation modeste, mais le fait est marquant.

Curieux de connaître un peu mieux ces nouveaux Internautes, j'ai écrit un petit script Perl pour extraire des informations directement depuis le fichier log d'Apache de la veille. Stupeur, en lançant une commande « whois » sur 98 % des IP de ces internautes utilisant le moteur Bing, j'ai comme résultat « OrgName: Microsoft Corp ». Stupéfaction 5,98 % de mes hits sur les pages de ce site Web sont des employés de Microsoft ! Mais des employés de Microsoft qui ne sont pas gâtés puisqu'ils utilisent encore Windows XP et Internet Explorer 6 et en ayant désactivé le chargement des images.

Certaines mauvaises langues diront que Microsoft utilise des scripts pour augmenter artificiellement les statistiques d'utilisation de son moteur Bing, mais je suis incapable de penser et d'écrire une chose pareille d'une société aussi soigneuse de son image de marque que Microsoft, connue de par le monde pour son intégrité et son respect des lois.

J'avais déjà remarqué ce grand nombre de visites d'employés de Microsoft sur ce même site il y a quelques mois pendant une période assez longue à l'époque où Bing s'appelait encore Live Search, mais depuis deux trois mois ces d'employés de Microsoft avait boudé le site Web sans raison... Mais là ils sont revenus et pour un moment je pense.
  • # ou...

    Posté par  . Évalué à 7.

    ou que ton outil de stats ne connait pas la signature de bing, ni ses ip et classe le tout en traffic.
    Vu les abus dans le référencement, je serais pas étonné que les pages soient vérifiées par la suite avec une signature autre que "bot" pour voir si le contenu change en fonction...
    Ce que tu vois donc c'est probablement le bot lui même, et la plage d'ip correspondante.
    • [^] # Re: ou...

      Posté par  (site web personnel) . Évalué à 6.

      Je pense que d'avoir écrit "employés de microsoft" en italique implique qu'il a compris exactement ce que tu soulèves, et que c'est là d'où vient le problème.
    • [^] # Re: ou...

      Posté par  . Évalué à 10.

      J'ai aussi énormément de recherches venant de bing effectivement, et toujours avec des mots très bateaux:
      http://www.bing.com/search?q=articles 2 (18.18 %)
      http://www.bing.com/search?q=logiciels 2 (18.18 %)
      http://www.bing.com/search?q=accueil 2 (18.18 %)
      http://www.bing.com/search?q=openoffice 1 (9.09 %)
      http://www.bing.com/search?q=documentation 1 (9.09 %)
      http://www.bing.com/search?q=parallel 1 (9.09 %)
      http://www.bing.com/search?q=projets 1 (9.09 %)
      http://www.bing.com/search?q=linux

      (mois d'août seulement)
      alors que les recherches venant de Google sont des phrases complètes, je me suis demandé s'il ne découpait pas les recherches de ses visiteurs mais la supposition que ce soit le moteur qui fasse ces recherches est effectivement plus probable.
      (Ceci dit pour la découpe des recherches c'est parfaitement imaginable aussi vu certains mots cherchés: 'parallel' est une partie du nom d'un de mes projets)

      On pourra croire que Bing connait un succès phénoménal de cette façon, si Xiti ressort le même genre de statistiques (ce qui serait une belle tricherie de la part du moteur) ils diront qu'il a beaucoup de succès et ça attirera les vrais internautes..
      Hum, j'espère que je me plante vraiment !

      Bon, après avoir regardé les recherches sur l'année

      http://www.bing.com/search?q=linux 5 (5.43 %)
      http://www.bing.com/search?q=logiciels 4 (4.35 %)
      http://www.bing.com/search?q=accueil 4 (4.35 %)
      http://www.bing.com/search?q=articles 3 (3.26 %)
      http://www.bing.com/search?q=openoffice 1 (1.09 %)
      http://www.bing.com/search?q=parallel 1 (1.09 %)
      http://www.bing.com/search?q=galeries 1 (1.09 %)
      http://www.bing.com/search?q=projets 1 (1.09 %)
      http://www.bing.com/search?q=documentation 1 (1.09 %)
      http://www.bing.com/search?q=credits

      C'est confirmé, c'est le crawler, ces mots là sont les titres de mes pages (ou des liens qui mènent à ces pages)
      • [^] # Re: ou...

        Posté par  . Évalué à 9.

        Moi c'est pour «votre» par exemple.

        J'ai un peu de mal à croire que bind soit tellement utilisé que les gens soient capable de cliquer sur mon site à la vingtième page de résultats pour la recherche «votre».

        C'est pénible, il va falloir rajouter bind.com dans la liste des spammers de referer dans awstats.

        Envoyé depuis mon lapin.

        • [^] # Re: ou...

          Posté par  . Évalué à 3.

          :s/bind/bing/

          Envoyé depuis mon lapin.

    • [^] # Re: ou...

      Posté par  (site web personnel, Mastodon) . Évalué à 3.

      Ça ne semble pas correspondre à ce qui est décrit dans le journal, mais d'autres ont rapporté des bizzaretés : d'après /. « Reports of IE Hijacking NXDOMAINs, Routing To Bing » [http://tech.slashdot.org/story/09/08/11/2149218/Reports-of-I(...)]
    • [^] # Re: ou...

      Posté par  (site web personnel) . Évalué à 5.

      Comme le dit mon journal, j'ai fait une première constatation dans l'outil Piwik (qui n'est pas mon outil) et qui reconnaît bien le moteur Bing par sont agent utilisateur « msnbot » je suppose.

      Puis ensuite, j'ai écrit moi-même un script Perl pour extraire (du fichier log « access_www.mon-site.com.log.1» d'Apache) les IP associées au référant « www.bing.com », et le script a lancé une commande « whois », sur chacune des IP et 98 % de ces IP appartiennent à la société Microsoft et possèdent un agent utilisateur « Mozilla/4.0 (compatible; MSIE 6.0; ...) » et non pas « msnbot/2.0b ».

      Donc selon toi, tous ces hits viendraient compléter le référencement du moteur Bing, mais avec un agent utilisateur différent ? Mais pourquoi tant de hits, alors que le contenu du site change peu et pourquoi mettre « www.bing.com » en référant ?
      • [^] # Re: ou...

        Posté par  . Évalué à 7.

        Je t'ai expliqué...
        Les petits malins renvoient un contenu différent *optimisé* s'ils detectent un bot.
        Donc, pour eviter le spamdexing, un passage avec un user-agent normal permet de constater et blacklister ceux usant de ces pratiques.
        • [^] # Re: ou...

          Posté par  (Mastodon) . Évalué à 10.

          ou alors, MS ne sait pas coder un bot et a donc employé des milliers de chinois pour faire le boulot du bot, d'où les IP des employés de MS.
          • [^] # Re: ou...

            Posté par  . Évalué à 2.

            Ou alors juste une ferme de serveurs qui fait cela à longueur de temps.
            • [^] # Re: ou...

              Posté par  . Évalué à 4.

              Oui, mais cette dernière tournant sous Linux. Il faut un minimum de fiabilité et de performances.

              Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur

              • [^] # Re: ou...

                Posté par  . Évalué à 2.

                Alors là, je dois t'avouer, en toute honnêteté, que j'ai pas compris la relation avec ta réponse :-\
        • [^] # Re: ou...

          Posté par  (site web personnel) . Évalué à 9.

          Possible, mais je suis moyennement convaincu... 5,98 % des hits sur des pages du site Web seraient issues d'un robot de Bing lutant contre le référencement abusif (spamdexing). Si une page peut renvoyer une page « optimisée » pour un agent utilisateur spécifique elle peut tout aussi bien le faire pour une classe d'IP donnée. Les IP utilisées des moteurs de recherche sont connues.

          Et je n'ai pas constaté la présence de robot Google lutant référencement abusif ayant ce comportement.
          • [^] # Re: ou...

            Posté par  . Évalué à 3.

            Et pourtant, c'est pas pour troller mais la qualité des résultats de Google est supérieur à ceux de BING pour les quelques recherches que j'ai faite histoire de voir. (Ce n'est pas une généralité, mais il était particulièrement nul).
            • [^] # Re: ou...

              Posté par  . Évalué à 3.

              comme d'habitude quoi ...

              moi j'avais essayé de trouver un resultat connu sur bing, et pas moyen de tomber dessus meme en mettant le texte integrale. Google avec le texte integrale me le mets en premier resultat (page perdu au fin fond du web)

              peut etre qu'il faut lui laisser le temps de decouvrir internet (serieusement) a l'epoque de google il y avait moins de site que de nos jours et ils ont grandi avec internet. Microsoft est arrivé avec une masse de travail assez conséquente qui l'attendait.
              • [^] # Re: ou...

                Posté par  . Évalué à 3.

                s/internet/le web/g
            • [^] # Re: ou...

              Posté par  . Évalué à 2.

              j'ai fait le même exercice histoire de ne pas être scotché à google.
              bien je n'ai pas pû exploiter les résultats de bing.
              je ne suis pas sûr d'y retourner un jour.
              • [^] # Re: ou...

                Posté par  . Évalué à 4.

                Certains disent que comme on a appris à utiliser google depuis toujours, on sait à peu près comment il fonctionne, et on lui pause les bonnes questions par expérience.

                Si l'algorithme est différent, les résultats ne sont pas les mêmes pour les mêmes questions, et il faut reformuler les recherches. Or, on reformule pour google par habitude.

                Envoyé depuis mon lapin.

                • [^] # Re: ou...

                  Posté par  . Évalué à 2.

                  Ah oui, tu fais des phrases pour google ? Je ne vois pas comment je pourrais « reformuler » mes listes de mots clés...
                  • [^] # Re: ou...

                    Posté par  . Évalué à 2.

                    Au niveau des résultats que l'on obtient, on reformule nos listes de mots clés en jouant sur l'ordre, ou en changeant de mots, en rajoutant des + et des -…

                    Envoyé depuis mon lapin.

                    • [^] # Re: ou...

                      Posté par  . Évalué à 3.

                      Oui, mais là on parle d'utilisateurs avertis. Pour une utilisation classique où tu cherches les premier résultats sur un mot clé ou deux, Google me donne des résultats plus pertinents qu'Exalead par exemple. Et pour ajouter ou enlever des mots clés pour affiner la recherche... je ne vois pas ce que ça change d'un moteur à l'autre... c'est plutôt le sujet et les réponses qui sont en cause.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.