Forum Programmation.web Envoyer une url sur une adresse en gmail sans que Googlebot aille fourrer son nez ensuite

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes : aucune
1
29
nov.
2013

Bonjour,

j'ai dernièrement envoyé une url sur une adresse en gmail.
L'url étant privée, un peu confidentielle. En fait, il ne faut pas qu'elle soit référencée dans les moteurs de recherches.

Je sais que les comptes gmails sont analysés par un robot, mais je pensais naïvement que google bot n'irait pas foutre son nez sur le site web en ligne… comme je fus naïf.

En ayant par hasard les logs serveurs sous les yeux, j'ai pu voir l'indexation qui se faisait sur le site… par google bot.

Maintenant que j'ai désactivé les sites en question, il se prends du 404, mais cela ne règle pas totalement le problème.

Il est éventuellement possible que mon contact ait fait une autre manip, qui aurait donné la puce à google… mais j'ai quand même l'impression que gmail fait la même chose que hotmail ou MSN, quand on y envoie une URL, dans les 10 minutes Bing bot s'y présente.

Je ne peux pas casser l'url, en retirant le http:// mon contact serait perdu (mais sûrement pas les robots).

Maintenant vous savez…
ça reste pratique pour initier un référencement dans google cela dit.

A+

  • # robot.txt ?

    Posté par  . Évalué à 2.

    juste par curiosité,
    est-ce qu'il y avait un robot.txt sur le serveur ?

    Les vrais naviguent en -42

    • [^] # Re: robot.txt ?

      Posté par  (site web personnel) . Évalué à 2.

      non, mais quand même… et il y a le risque de l'oublier plus tard.

      Je n'y avais pas pensé… je vais sûrement en placer un, et écrire dans une commande at un truc pour le virer plus tard :)

      Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

      • [^] # Re: robot.txt ?

        Posté par  . Évalué à 3.

        Pourquoi ? Tu interdit juste l'indexage de ton URL privée dans le rebot.txt et plus besoin d'y toucher, le reste du site ne sera pas concerné :
        http://www.commentcamarche.net/contents/1268-robots-txt

        • [^] # Re: robot.txt ?

          Posté par  (site web personnel) . Évalué à 1.

          Le site sera publique, mais le temps d'y ajouter un peu de contenu avant serait pas mal.

          J'aurai pu changer l'url, il y a beaucoup de logiciels qui supportent ça très bien (pas le cas pour celui-là, que je connais trop mal probablement (depuis 2 jours)).

          Donc, le site est privé, temporairement :) bien sur que le robots.txt demande poliment aux robots de le respecter… ce qui est vraiment privé est déjà protégé avec une page d'authentification.

          Merci

          Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

  • # filtrer sur l'user-agent et/ou l'IP

    Posté par  (site web personnel) . Évalué à 3.

    La vraie solution me semble d'éviter d'utiliser ce type de service. Si le robots.txt est ignoré, tu peux filtrer sur l'user-agent et/ou l'adresse IP du client de manière à retourner une 403 à tout ce qui ne ressemble pas à une requète « légitime ».

    pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

  • # gpg

    Posté par  (site web personnel) . Évalué à 6.

    Chiffrer les messages est une possibilité.

    Système - Réseau - Sécurité Open Source

    • [^] # Re: gpg

      Posté par  . Évalué à 2.

      Si le client n'est pas capable d'ajouter http:// devant l'url, je pense qu'il ne sera pas capable d'installer un client mail qui gère gpg, générer une nouvelle clé, etc.

      • [^] # Re: gpg

        Posté par  . Évalué à 2.

        Personnellement je communique mes urls privées par téléphone, et je mentionne de le pas la communiquer par mail.

        • [^] # Re: gpg

          Posté par  . Évalué à 1.

          Dans ce cas il serait plus simple de communiquer les urls par email, les protéger par un mot de passe fourni par téléphone (dicter une url par téléphone n'est pas des plus pratique).

  • # Solutions

    Posté par  . Évalué à 8.

    • Comme déjà dit, mettre en place un robot.txt.
    • Comme déjà dit, chiffrer ses messages confidentiels.
    • Et j'ajoute : Ne pas compter sur la non diffusion (ou la diffusion limitée) d'une URL pour protéger un contenu confidentiel et/ou privée, http auth ou les certificats ssl clients sont conçus pour ça, eux.

    Bref tu a fait là une chose du même genre que confondre NAT et firewall ou RAID et sauvegarde ;)

    • [^] # Re: Solutions

      Posté par  (site web personnel) . Évalué à 1.

      C'est un peu différent.

      Je ne crois pas que les robots des moteurs de recherches essayent des sous-domaines au hasard.
      J'ai plusieurs domaines et sous-domaines configurés et fonctionnels, qui n'ont pas eu de visites, simplement parce que l'information n'a pas fuitée.

      C'est une forme de protection par obscurantisme, mais je voyais mal Google descendre aussi bas que Bing/Hotmail. Il y a une grande différence entre analyser des mot-clefs dans un e-mail et aller vérifier les urls (probablement pour affiner le profil).

      C'est aussi éventuellement un moyen pour les moteurs de recherches d'avoir un coup d'avance?

      Je pourrai lui suggérer de changer de prestataire pour ses e-mail, mais le précédant l'a mis dans une situation pénible, alors il n'est pas prêt à passer à autre chose pour le moment.

      Bonne soirée
      G

      Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

      • [^] # Re: Solutions

        Posté par  . Évalué à 2.

        Google pas directement, mais indirectement pourquoi pas. Internet est vaste et je ne mettrait pas ma main au feu que personne ne diffuse une liste d'url valides récupérés par "bruteforce" (on teste domaine.ext/a puis domaine.ext/b…) ou dictionnaire (on teste domaine.ext/index.php puis domaine.ext/admin…).

        Google est remplis de pages qui ne sont pas sensées être publiques !

        Autre domaine, mais tout aussi surprenant, y'a quelque-temps je montais un serveur mail pour une nouvelle association.
        J'ai pas encore d'enregistrement MX que je reçoit déjà un spam chinois et directement sur une adresse valide que je vient tout juste de créer. C'étais pas une adresse 'standard' genre admin@ ou postmaster@ mais mon compte perso et tomber direct dessus comme-ça, je ne comprend toujours pas.

        • [^] # Re: Solutions

          Posté par  . Évalué à 2.

          J'ai pas encore d'enregistrement MX que je reçoit déjà un spam chinois et directement sur une adresse valide que je vient tout juste de créer. C'étais pas une adresse 'standard' genre admin@ ou postmaster@ mais mon compte perso et tomber direct dessus comme-ça, je ne comprend toujours pas.

          scan de port pour detecter le serveur de mail
          et catchall qui renvoie sur ton compte ?

          • [^] # Re: Solutions

            Posté par  . Évalué à 2.

            Pas de catchall.

            Mais bon mon client peut-être vérolé, ssl peut être cassé par les chinois du fbi, le serveur a peut-être un rootkit…

        • [^] # Re: Solutions

          Posté par  (site web personnel) . Évalué à 2.

          Les prénoms et les login en admin, sale, customer, branding etc. sont systématiquement spamés, avec ou sans présence de quoique ce soit. Il y a le nom de domaine quelque part? hop!

          Une adresse IP, que donne le réverse? hop!

          Dans mon cas, c'était silencieux jusqu'à ce que je file l'url au client. Son logiciel de mail est peut être vérolé, ça ne m'étonnerait pas.

          Le site est destiné à être publique, mais je ne voudrais pas casser l'effet de surprise, et surtout, mon client n'est pas prêt à le rendre publique.

          Voili voilou
          G

          Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

  • # Solution : Résoudre le vrai problème

    Posté par  (site web personnel) . Évalué à 8.

    Suggérer à l'interlocuteur de changer de fournisseur de service mail par un qui respecte un peu mieux les échanges privés.

  • # SEO

    Posté par  . Évalué à 1.

    C'est dingue ça. Gmail est devenu le nouveau site de soumission des URLs!

    J'ai lu, pour ceux qui font du SEO, que G+ (qu'on appelle la "ville fantome", car tout le monde a un compte, mais personne dit rien) indexe un post public en 6 secondes.

    Une solution à l'ancienne, tu mets dans ton mail (en texte):
    http slash slash deux-point …

    Une autre solution, tu fais une URL d'URL. Une URL qui redirige sur une autre URL.

    Dans la première URL, tu peux faire gethostbyname() pour voire qui est derriere. Pour ça, le GoogleBot est clair, il y aura un google dans le nom de domaine.

    • [^] # Re: SEO

      Posté par  (site web personnel) . Évalué à 2.

      J'ai les logs sous les yeux, les moteurs de recherches ne se cachent pas.

      Oui, à l'ancienne, mais je suis certain que example.com sans le http:// pose le même problème.

      Après, il y a le problème de langue, alors devoir expliquer qu'il faut remplacer certaines lettres par d'autres… bon, là, ce n'était pas trop grave. Si cela avait été vraiment critique, rien ne serait passé par une adresse e-mail, éventuellement un texto, et encore :)

      Bonne soirée
      G

      Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

      • [^] # Re: SEO

        Posté par  . Évalué à -2.

        Il y a aussi des systèmes avec des URLs "jetables". Je n'ai plus ça sous la main, désolé.

  • # Le problème n'est pas là

    Posté par  (site web personnel) . Évalué à 5.

    Ce que tu met en ligne est ouvert à tout le monde. Masquer l'url par des moyens détournés est une fausse solution qui se rapproche de la sécurité par l'obscurité, je suis surpris que personne n'ai réagi à ça.

    Si tu as besoin de protéger un contenu, il faut que tu empêches tout un chacun d'y accéder. La solution la plus simple est celle du fichier .htaccess, mais il est possible de faire plus compliqué en fonction des moyens dont tu disposes.

  • # Mot de passe sur la page

    Posté par  (site web personnel) . Évalué à 5.

    Tu peux simplement mettre un mot de passe sur le site / page web.

    Si tu utilises un serveur apache, tu peux restreindre l'accès à un répertoire/sous répertoires via un .htaccess .

    Le robot ne trouvera pas tout seul le login / mot de passe.

    Tu peux communiquer les login / mot de passe:
    - soit de le même mail que celui de l'URL (hummm, pas terrible…)
    - soit dans un mail à part
    - soit par téléphone/SMS/autre

    Attention, l'authentification du .htaccess n'est pas chiffrée, dont le mot de passe peut être récupérer par un sniffer de trames IP. Mais ici, il s'agit "juste" d'éviter les robots de Google, donc cela sera suffisant.

  • # To parse or not to parse

    Posté par  . Évalué à 2.

    Tiens, c'est marrant. Je me suis justement posé la question il y a quelques semaines : est-ce que Google lit le contenu d'un mail envoyé par (ou à) gmail ?
    Du coup, pour tester, j'ai créé une page HTML avec un nom à la con, dont je suis le seul à connaître l'adresse. Puis j'ai envoyé ce lien depuis une adresse gmail, et également vers une adresse gmail créée pour l'occasion. Donc vraiment personne ne connaît l'adresse de la page.
    Et depuis je surveille les logs de Nginx pour voir si google vient crawler.
    En 3 semaines, Google n'est jamais venu crawler ma page. Donc pour l'instant, rien ne me permet d'affirmer que Google a parsé l'URL de mon email. C'est embêtant parce que si Google était venu crawler ma page, j'aurais pu affirmer que mon email avait été lu pour parser l'URL, mais là, je ne peux rien affirmer =/

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.