Google est fantastique

Posté par  (site web personnel) . Modéré par Fabien Penso.
Étiquettes :
0
8
nov.
2001
Internet
Google est bien connu des internautes en recherche de liens. Il semblerait qu'il fasse trop bien son travail ou que les serveurs contiennent des fichiers qui ne devraient pas être accessible:
il a été fait une recherche sur les site militaires americains et les fichiers Word et on a vu apparaître des documents plutôt sensibles dans la réponse de la requête. La faute ne revient pas à Google de trop bien faire son travail mais plutôt à quelques webmestres qui ne font pas bien le leur.

Aller plus loin

  • # MDR !!!

    Posté par  (site web personnel) . Évalué à 10.

    C'est quand meme marrant ...





    Mais d'ailleurs, ne peut on pas considerer ca comme du piratage informatique ?


    Le googlebot (enfin le truc qui recense toutes les pages/liens d'un site), est-il passible de DMCA pour avoir accéder a des documents qui ne lui appartenaient pas ?





    Enfin, ca me fait encore bien rire tout ca ...
    • [^] # Re: MDR !!!

      Posté par  (site web personnel) . Évalué à -1.

      Blacklistons le google-bot !
      • [^] # Re: MDR !!!

        Posté par  . Évalué à 10.

        c'est marrant, je croyais que le /robots.txt permettait d'éviter que les moteurs de recherche n'aillent fouiller un peu trop loin... ils ne connaissent pas ça dans l'armée ?



        Si il vous vient l'envie d'en mettre un chez vous, la syntaxe est on ne peut plus simple :



        User-agent: *

        Disallow: /private

        Disallow: /phps/list



        ca se traduit par :

        pour tous les robots,

        interdiction d'aller dans le répertoire /private

        interdiction de choper toutes les URL du genre /phps/list* (comme listusers.php, etc)



        Ce n'est pas sensé vous garantir une confidentialité des données, mais plutôt d'éviter les erreurs 404 d'être indexées...



        vite et mieux, comment faire un robots.txt ? http://www.robotstxt.org/wc/norobots.html

        c'est standard, ya une RFC ? http://www.robotstxt.org/wc/norobots-rfc.html
        • [^] # Re: MDR !!!

          Posté par  . Évalué à 10.

          c'est marrant, je croyais que le /robots.txt permettait d'éviter que les moteurs de recherche n'aillent fouiller un peu trop loin... ils ne connaissent pas ça dans l'armée ?



          Non le robots.txt ne l'empeche pas forcement. C'est juste une indication que tu donnes au robot. Apres libre a lui de respecter tes volontes ou pas. Mais bon je pense que le googlebot est suffisament civilise pour le respecter.



          --

          Chuchi
    • [^] # Piratage informatique

      Posté par  . Évalué à 10.

      Ce serais rigolo si c'était considéré comme du piratage informatique.

      Un mec se promène dans la rue fait tomber un papier secret défense et le mec qui le trouve est accusé d'espionage.



      Non, sérieusement les webmaster ont pas bien fait leur boulot. J'ai fait mon service militaire, et aucune machine n'est connectée sur le réseaux internet et sur internet.

      Ils ne sont pas bêtes. Maintenant c'est peut-être intentionel, un mec qui laisse trainer des documents confidentiels c'est peut-être voulu pour une cause mystérieuse :

      - récupération d'infos

      - espionage ...



      Bon je regarde trops les films d'espions ...
      • [^] # Re: Piratage informatique

        Posté par  . Évalué à 2.

        Non, sérieusement les webmaster ont pas bien fait leur boulot. J'ai fait mon service militaire, et aucune machine n'est connectée sur le réseaux internet et sur internet.



        Tu voulai pas plutot dire sur le réseau intranet et sur internet ?
        • [^] # Re: Piratage informatique

          Posté par  . Évalué à 0.

          Oui, oui c'est ça, mon clavier n'écrit pas ce que je pense des fois.

          Ils utilisent la même sécurité que n'importe qu'elle entreprise. Pas de machine qui peut accéder à deux réseaux différents.
          Ou alors cette machine se trouve dans une pièce avec un badge ou un pitbull à l'intérieur.

          Mais le problème c'est que les mecs qui s'occupent du réseaux ils y connaissent rien, donc les conneries elle proviennent d'incompétences informatiques.
          Et dire que c'est eux qui doivent nous protéger...
  • # Google m'a sauver ;-)

    Posté par  . Évalué à 10.

    Moi ce moteur m'a sauvé la vie.


    Une nuit, vers 3-4 heures du matin alors que j'aurai déjà dû être couché depuis longtemps, j'ai entrepris d'effacer qques répertoires inutiles sur mon ftp de free (mes pages persos).


    Après avoir appuyé pendant cinq bonnes minutes sur OK de façon continue (pour confirmer les suppressions), quelle n'a pas été mon horreur que de découvrir, en appuyant sur le bouton pour remonter aux répertoires au dessus, que j'étais...dans le répertoire racine !!! J'avais tout effacé !!!


    Evidemment, loi de Murphy oblige, je n'avais aucune sauvegarde.


    Et c'est là qu'intervint mon copain google, qui m'a permis de récupérer tout le texte dans son cache.


    Voilà, c'était le 3615 mavie, j'espère que vous avez aimé.





    Sinon, pour apporter de la valeur ajoutée à ce post, il est plutôt étonnant que des documents word soient dans son cache, alors qu'il n'est censé indexer que le html (ainsi que des thumbnails dans google image, et les pdf, dans lequel il permet une recherche dans le texte, je ne sais d'ailleurs pas trop comment il fait la conversion...).


    Google va-t-il devenir un lieu de téléchargement de virus macro words ;-) ?
    • [^] # Re: Google m'a sauver ;-)

      Posté par  (site web personnel) . Évalué à 5.

      Sinon, pour apporter de la valeur ajoutée à ce post, il est plutôt étonnant que des documents word soient dans son cache, alors qu'il n'est censé indexer que le html


      Ils ont essayé de rajouter les .doc (et quelque autres) dans les critéres de recherche. Ils ont donc indexé tout ce qu'il pouvait trouver à ces formats, notamment des documents qui n'étaient pas sencés être accessible au grand public. Ce qui m'étonne justement c'est que ceux qui les avaient mis en ligne n'ai pas pensé que ces fichiers, jusqu'à présent inaccessible au moteur de recherche classique, puissent être lu alors qu'il était sur une zone "publique" du web. A moins qu'ils ne veuillent rendre la tache plus facile aux script-kiddies?
    • [^] # Re: Google m'a sauver ;-)

      Posté par  . Évalué à 10.

      Il existe un outil répondant au doux nom de pdftotext qui converti les fichiers PDF en texte...





      [100% - toto@world:~] $ pdftotext


      pdftotext version 0.92


      Copyright 1996-2000 Derek B. Noonburg


      Usage: pdftotext [options] <PDF-file> [<text-file>]


    • [^] # Re: Google m'a sauver ;-)

      Posté par  . Évalué à 10.

      C'est vrai que la fonction de cache peut etre très utile. Moi je la trouve d'ailleurs stupéfiante ! Quand on sait tout ce que Google référence... c'est dingue de chercher à dupliquer tout le web !



      Maintenant, bien que la fonction de cache soit justifiée pour des documents inaccessibles pour des raisons techniques (lien cassé, serveur down...), elle devient plus génante dans le cas de documents volontairement retirés du web.



      Alors que faut-il faire pour éviter ce désagrément ... arreter de tout mettre en cache, ou tant pis pour l'imprudent qui a mis quelque chose en ligne (apres tout, n'importe qui a pu le télécharger et le diffuser) ?
      • [^] # Re: Google m'a sauver ;-)

        Posté par  (site web personnel) . Évalué à 9.

        http://www.google.fr/intl/fr/remove.html#uncache(...(...))



        (désolé, j'ai la flemme ; en bref, tu peux demander à Google de virer les pages cachées qu'ils ont indexé depuis ton site. Et comme ce sont des gens plutôt honnêtes - c'est suffisamment rare pour que je tienne à le signaler -, il le font. Encore que je n'aie pas eu moi-même l'occasion de tester...)

        Envoyé depuis mon PDP 11/70

        • [^] # Re: Google m'a sauver ;-)

          Posté par  . Évalué à 7.

          Bah alors ya vraiment rien a redire, ils assurent bien chez google !

          Ils répertorient toutes les pages, mais aussi les images, les pdf... archivent les groupes de discussion, gardent tout ça en cache, proposent des traductions, permettent des recherches avancées, spécialisées (google.fr/linux), par thèmes, regroupent les résultats par domaines...

          C'est simple et léger, c'est pas envahi par la pub, ca tourne sur un joli cluster linux (si je ne m'abuse) et ils ont l'air honnetes et pensent à tout :)

          Bon ok, vous allez penser que j'en fait beaucoup, mais toujours moins qu'eux. Est-ce que j'en oublis encore ??

          PS: on peut retrouver les memes soucis de cache avec http://web.archive.org/(...) (une news vient de paraitre). Normalement ils doivent pouvoir supprimer des pages archivées si on leur demande...
  • # DMOZ

    Posté par  . Évalué à 1.

    au passage... n'oublions pas dmoz





    http://dmoz.fr(...)">http://dmoz.fr(...(...))">http://dmoz.fr(...(...(...)))





    ou





    http://dmoz.org(...)">http://dmoz.org(...(...))">http://dmoz.org(...(...(...)))





    enregistrez y votre site


    faite un lien vers cet annuaire


    utilisez le et conseillez le...
    • [^] # Re: DMOZ

      Posté par  . Évalué à -2.

      Comme annuaire il y a aussi PlaneteLibre, pour referencer votre site francophone



      http://www.planetelibre.org/(...(...))
    • [^] # Re: DMOZ

      Posté par  . Évalué à 9. Dernière modification le 05 décembre 2021 à 17:42.

      J'avais écris un petit truc à propos de DMOZ.

      C'est très mal rédigé, certaines parties du contenu sont discutables, mais il y reste l'idée principale

      NdM: lien cassé retiré lors de l'anonymisation

      Pour synthétiser, DMOZ, c'est « open mon chien », terme à la mode pour se faire exploiter pour pas un sou.

      L'idée de l'informatique libre, c'est de donner et recevoir, de partager. Dans DMOZ, tu donnes, mais tu n'as aucune certitude sur le devenir de ton travail.

      Lorsque tu produit quelque chose en GPL, t'es assuré que ce sera réexploité par quelqu'un qui produit aussi du logiciel libre. Dans le cas de DMOZ, tu n'es assuré de rien. Tu n'as aucune assurance, tout appartient à Netscape/AOL et compagnie.

      En gros, tu fais le boulot des employés de yahoo mais gratuitement. Tu ne dispose pas de ton travail, tu le donne.

      Rien à voir avec du libre dans lequel la notion de partage est essentielle. La, ton travail pourra être revendu le lendemain par Netscape/AOL, mais toi tu ne peux revendre ce travail. Tout ce que tu fais ne t'appartient pas, il appartient à AOL.

      Et sur le plan technique, ça reste une grosse administrations où finalement tu ne controles pas grand chose en tant que simple éditeurs… Tu fais ce qu'on te dis, et ça s'arrete là.

      J'ai testé, j'ai pas aimé, et je ne vous le conseille pas. Par ailleurs, je ne trouve pas ça si efficace que ça en terme de moteur de recherche.

      Lorsque c'est apparu, google n'existait pas vraiment comme il existe aujourd'hui.

      Et c'est vrai qu'avec altavista et ses copains, faire une recherche passait des heures, parce que ces moteurs affichaient en premier des sites commerciaux (généralement dépourvu de tout contenu autre que publicitaires), n'affichaient que les sites très institutionneles, affichaient 300000 fois les mêmes pages.

      Maintenant face à google…

      • [^] # Re: DMOZ

        Posté par  . Évalué à 1.

        très étrange ce que tu dis parce que, par exemple, j'avais lu via Slashdot que DMOZ avait adopté le contrat social de Debian...



        néanmoins, DMOZ reste le seul moteur indépendant de la pub car meme google ne nous a pas épargné une certaine partialité
        • [^] # Re: DMOZ

          Posté par  . Évalué à 2.

          "meme google ne nous a pas épargné une certaine partialité"
          par exemple ?
          • [^] # Re: DMOZ

            Posté par  . Évalué à 1.

            Fait une recherche sur "XML". Tu verras deux liens qui apparaissent par la pub. Néanmoins, ca reste clairement défini comme "sponsored links".
      • [^] # Re: DMOZ

        Posté par  . Évalué à 0.

        en mai dernier ils ont adopté un contrat social dérivé de celui de Debian

        http://dmoz.org/socialcontract.html(...)

        je le trouve plutot rassurant...
  • # ... et aussi les databases styles MSaccess

    Posté par  . Évalué à 2.

    en plus des fichiers word et pdf ....





    soit quelques bases de données de Carte Bleue par exemple .
  • # question (peut être) idiote...

    Posté par  . Évalué à 3.

    Comment google fait-il donc pour indexer les fichiers placés dans un répertoire dont le listage a été refusé (par un index.html, par un a-x sur le répertoire....) et qui n'est pas indiqué par un lien ?

    Je croyais que le moteur indexait en suivant les liens...



    Merci de me répondre

    un newbie :)
    • [^] # Re: question (peut être) idiote...

      Posté par  . Évalué à 6.

      C'est exactement ce qui me fait penser que c'est un hoax...



      (Dites-moi si j'ai faux sur la suite)



      En général, l'indexage de pages web ne se fait pas au hasard. Les webmasters donnent aux moteurs de recherche l'adresse de leur site, et le robot se charge de l'indexer.



      Alors, les pages indexées sont soit la page donnée par le webmaster, soit une page/une image/un document word, pdf/obiwan kenobi référencé dans la dite page (par un lien <a href=...>, <img src=...>, etc.)



      Donc, AMHA, il est IMPOSSIBLE que google tombe sur un document qui ne soit pas référencé quelque part. S'il est référencé, c'est qu'il n'était pas caché. S'il n'était pas caché, c'est que ce n'est pas une surprise qu'il apparaisse sur google...



      PS: Une solution pour tomber sur des documents au pif sans qu'ils soient référencés, c'est de faire des "attaques" au dictionnaire (ou même brute force) pour trouver des documents, mais ça se verrait dans les logs des serveurs web... et de manière assez flagrante)



      GET /bilan.doc

      GET /document1.doc

      GET /moteur à propulsion photonique.doc

      ...
      • [^] # Re: question (peut être) idiote...

        Posté par  . Évalué à 0.

        En général, l'indexage de pages web ne se fait pas au hasard. Les webmasters donnent aux moteurs de recherche l'adresse de leur site, et le robot se charge de l'indexer.



        Bin je veux pas te contredire, mais je vais quand même le faire ;-)...

        Je n'ai jamais indexé ma page web (non, ce n'est pas un site, c'est une page), et pourtant, tous le jours je vois des gens qui ont fait une recherche sur google arriver sur celle-ci grâce à google !
        • [^] # Re: question (peut être) idiote...

          Posté par  . Évalué à 5.

          Ton site doit être référencé dans un lien depuis une page qui elle, est référencée par un moteur de recherche...



          Les moteurs de recherche, ils ne se limitent pas en ne suivant pas les liens qui "sortent" d'un site ;)



          (Exemple: le robot de google parcours linuxfr, tombe sur ton url dans un commentaire, et paf, t'es référencé...)
      • [^] # Re: question (peut être) idiote...

        Posté par  . Évalué à 4.

        En général, l'indexage de pages web ne se fait pas au hasard. Les webmasters donnent aux moteurs de recherche l'adresse de leur site, et le robot se charge de l'indexer.



        Non (en fait pas tout a fait), a partir d'une page passée demandé a indexer sur google, le robot va suivre les liens des différentes pages tant qu'il en trouve. Mais le chemin à suivre pour arriver à un document peut etre completement tordu (une mailing liste donne l'addresse d'un document, cette mailing liste est stockée dans un coin, etc ...).



        Surtout que sur de nombreux site, il arrive que l'on fasse des échanges en mettant ça dans un répertoire du site ouaib, et en prévenant par mail de l'existance du fichier. Mais en faisant ça, il n'y a plus aucune sécurité sur le fichier, et on risque des surprises.
        • [^] # Re: question (peut être) idiote...

          Posté par  . Évalué à 3.

          En fait, je m'ai mal exprimé, cf. mon post un tout petit peu plus haut, le robot suit absolument tous les liens qu'il trouve.



          Effectivement, le facteur mailing list aggrave la chose...



          Mais quoiqu'il arrive, ça ne change rien au fait que les liens existaient déjà quelque part.



          Le "scandale" qui a été diffusé partout (des documents top secrets non référencés qu'on trouve avec google) me parait faux... on pouvait déjà tomber dessus avant, mais indirectement, c'est tout...
      • [^] # Re: question (peut être) idiote...

        Posté par  . Évalué à 0.

        Beuh...

        Si t'as pas de index.html, le contenu de la page est listé, non ?

        Donc, il est indexable... !
        • [^] # Re: question (peut être) idiote...

          Posté par  . Évalué à 0.

          Si t'as pas de index.html, le contenu du répertoire est listé (si le serveur est configuré pour), mais dans la logique du robot, c'est une page quand même...



          En fait, j'ai pas compris ce que tu voulais dire...
    • [^] # Re: question (peut être) idiote...

      Posté par  . Évalué à 8.

      Moi, des fois j'ai dans le referer de mes logs Apache

      des url de sites qui ne référencent pas mon site, étrange

      mais bon je me dis que c'est un problème du navigateur, ou alors

      une bidouille de l'utilisateur.

      Beaucoup de sites mettent leur stats complètes en ligne

      donc on peut imaginer que certains de ces fichiers word sont indéxés

      avec ce système, d'autre part, Word s'ouvre dans IE pour la lecture

      on peut imaginer aussi que ces documents word pointent vers des sites

      et boum, je t'envoie le REFERER par la même occasion, etc ...





      NioTo
      • [^] # Re: question (peut être) idiote...

        Posté par  . Évalué à -1.

        et boum, je t'envoie le REFERER par la même occasion, etc ...



        'tain, c'est pas con ; j'y avais pas pensé...

        <troll_de_base>Et hop, un truc de plus à reprocher à Microsoft...</troll_de_base>
      • [^] # Re: question (peut être) idiote...

        Posté par  (site web personnel) . Évalué à 8.

        J'ai deja constaté la chose suivante (avec MSIE). Supposons que tu lances IE, tu vas sur: http://linuxfr.org(...(...)) . OK.



        Maintenant tu consultes le site, et à un moment tu décides d'aller voir ailleurs. Tu tapes (par ex) http://www.google.com(...(...)) dans la zone de MSIE réservée à cet usage et tu files sur Google.



        Pour Google, le REFERER sera http://linuxfr.org(...(...)) (alors que tu n'as pas cliqué sur un lien menant evrs Google).



        Je suppose que ce phénomène doit exister avec d'autres browsers. De même que je ne sais pas si toutes les versions de MSIE font ça. Voila peut-être une explication.
        • [^] # Re: question (peut être) idiote...

          Posté par  (site web personnel) . Évalué à 3.

          Hein ?! Il me semblait que quand on tapait directement dans la barre d'adresse il n'y avait PAS de referer. C'est comme si on partait d'un bookmark.

          Me trompe-je ?

          Pensez à l'environnement avant d'imprimer ce commentaire - Please consider the environment before printing this comment

          • [^] # Re: question (peut être) idiote...

            Posté par  (site web personnel) . Évalué à 6.

            Ben ouais, ça peut paraitre étrange. Peut-être s'agit-il aussi d'un bug d'IE (ce serati étonnant ça :). Mais j'avais constaté ça y'a quelqus temps deja en allant sur le site de la CNIL dans la rubrique qui explique qu'on laisse des traces partout ou on va sur le net.



            Bref, je sais que ça parait bizarre mais c'est ce que j'avais constaté. Comme je le dis plus haut, peut-être que les versions récentes de ce browser n'ont pas ce bug (à l'époque, si je me souviens bien, il s'agissait d'un MSIE 4 si mes souvenirs sont bons).

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.