Journal Disparition possible de Scroogle

Posté par  (site web personnel) .
Étiquettes : aucune
5
11
mai
2010
Le site scroogle.org proposait un service d'anonymisation des recherches Google, en rebalançant les recherches aléatoirement sur une des 700 IPs des serveurs Google, et en enlevant au passage les cookies et ce genre de trucs.

Depuis aujourd'hui, il semblerait que Google ait supprimé la page de résultats qui permettait à Scroogle de fonctionner. On ne sait pas encore s'il s'agit d'une décision visant à bloquer explicitement les interfaces alternatives à Google, ou si c'est juste la conséquence indirecte d'un choix autre. On en saura plus dans les prochains jours.

Voici le message qui apparaît actuellement quand on effectue une recherche Scroogle, visible sur https://ssl.scroogle.org/cgi-bin/nbbwssl.cgi :

We regret to announce that our Google scraper may have to be permanently retired, thanks to a change at Google. It depends on whether Google is willing to restore the simple interface that we've been scraping since Scroogle started five years ago. Actually, we've been using that interface for scraping since Google-Watch.org began in 2002.

This interface (here's a sample from years ago: [http://www.scroogle.org/simple.html]) was remarkably stable all that time. During those eight years there were only about five changes that required some programming adjustments. Also, this interface was available at every Google data center in exactly the same form, which allowed us to use 700 IP addresses for Google.

That interface was at www.google.com/ie but on May 10, 2010 they took it down and inserted a redirect to /toolbar/ie8/sidebar.html. It used to have a search box, and the results it showed were generic during that entire time. It didn't show the snippets unless you moused-over the links it produced (they were there for our program, so that was okay), and it has never had any ads. Our impression was that these results were from Google's basic algorithms, and that extra features and ads were added on top of these generic results. Three years ago Google launched "Universal Search," which meant that they added results from other Google services on their pages. But this simple interface we were using was not affected at all.

Now that interface is gone. It is not possible to continue Scroogle unless we have a simple interface that is stable. Google's main consumer-oriented interface that they want everyone to use is too complex, and changes too frequently, to make our scraping operation possible.

Over the next few days we will attempt to contact Google and determine whether the old interface is gone as a matter of policy at Google, or if they simply have it hidden somewhere and will tell us where it is so that we can continue to use it.

Thank you for your support during these past five years. Check back in a week or so; if we don't hear from Google by next week, I think we can all assume that Google would rather have no Scroogle, and no privacy for searchers, at all.


— Daniel Brandt, Public Information Research, scroogle AT lavabit.com


En français :

Nous sommes au regret d'annoncer que notre interface au moteur de recherche Google a peut-être définitivement disparu, à cause d'un changement chez Google. Tout dépend de leur volonté de remettre en place l'interface simplifiée que l'on utilisait depuis le lancement de Scroogle il y a cinq ans. En fait, on utilisait même cette interface depuis le lancement de Google-Watch.org en 2002.

Celle-ci (voici un extrait datant de quelques années: [http://www.scroogle.org/simple.html]) a été remarquablement stable pendant tout ce temps. En huit ans, il n'y a eu qu'environ cinq changements demandant quelques ajustements de programmation. Par ailleurs, cette interface était accessible sur tous leurs data-centers de façon strictement identique, ce qui nous permettait d'utiliser 700 IP différentes pour Google.

Cette interface se trouvait sur www.google.com/ie mais elle a été supprimée le 10 mai 2010, au profit d'une redirection vers /toolbar/ie8/sidebar.html. Elle comportait une zone de recherche, et les résultats renvoyés ont toujours été génériques. Les extraits de résultats n'apparaissaient pas à moins de passer la souris sur le lien (ils avaient été mis là pour notre programme, donc ça allait), et il n'y a jamais eu la moindre publicité. Nous avons l'impression que ces résultats provenaient des algorithmes de base de Google, et que toutes les fonctionnalités supplémentaires, ainsi que les publicités, étaient ajoutées en surcouche de ces résultats génériques. Puis il y a trois ans, Google a lancé la "Recherche Universelle", c'est-à-dire l'inclusion de données provenant d'autres services Google sur les pages de résultats de recherche. L'interface simplifiée n'en a cependant pas du tout été affectée.

Cette interface a maintenant disparu. Scroogle ne peut pas continuer sans accès à une interface simplifiée qui soit stable. L'interface principale, orientée consommateur, par laquelle Google voudrait que tout le monde passe, est trop complexe, et elle change trop souvent pour rendre notre opération d'extraction possible.

Durant les prochains jours, nous tenterons de contacter Google pour déterminer si cette suppression est le fruit d'une nouvelle politique de Google, ou si elle est juste cachée quelque part et qu'on veut bien nous dire où elle est, afin qu'on puisse continuer à l'utiliser.

Merci pour votre soutien ces cinq derniers jours. Revenez prendre des nouvelles dans environ une semaine : si Google ne se manifeste pas jusqu'à la semaine prochaine, je pense que tout le monde pourra en déduire que l'entreprise souhaite effectivement la disparition de Scroogle, et de toute possibilité d'intimité dans les recherches.


— Daniel Brandt, Recherche en Information Publique, scroogle AT lavabit.com
  • # Pas une surprise

    Posté par  . Évalué à 10.

    Y'a toujours des risques quand on fait du scraping... en l'occurence c'était une page pour IE <6 je crois, donc c'est logique qu'à un moment google la retire (surtout depuis qu'ils ont dit qu'ils arretaient de supporter les anciennes versions d'IE).

    Il reste toujours d'autres API (dont l'API ajax qui n'a pas besoin de clé).
  • # Euh ?

    Posté par  (site web personnel) . Évalué à 6.

    Je vais peut être dire une betise, mais y'a pas un API pour faire des recherches via google ?

    Comment font les projets comme seeks (qui fonctionne tres bien aujourd'hui) ?
    • [^] # Re: Euh ?

      Posté par  . Évalué à 3.

      • [^] # Re: Euh ?

        Posté par  (site web personnel) . Évalué à -8.

        L'api AJAX, comme son nom l'indique, se fait côté client. On a donc les classiques IP + cookies qui passent, aucune anonymisation de la recherche en l'espèce ...
        • [^] # Re: Euh ?

          Posté par  . Évalué à 4.

          T'as cliqué sur le lien ? Ça s'appelle AJAX parce que c'est du JSON que ça retourne, et le lien était spécifiquement vers des exemples qui ne sont pas en javascript (et donc server-side)...
          • [^] # Re: Euh ?

            Posté par  . Évalué à 2.

            C'est du Javascript asynchrone + XML parce c'est du JSON que ça retourne ? Étrange... :P
        • [^] # Re: Euh ?

          Posté par  . Évalué à 7.

          Son nom ne l'indique pas justement. Et rien n'empêche à un serveur de jouer le serveur mandataire pour communiquer en AJAX (HTTP) avec Google.

          Envoyé depuis mon lapin.

    • [^] # Re: Euh ?

      Posté par  (site web personnel) . Évalué à 2.

      J'ai dû faire un code qui faisait du scrapping sur Google il y a quelques temps.
      Malheureusement, les API AJAX ne retournent pas exactement les mêmes résultats qu'une recherche web (pour éviter qu'on l'utilise pour optimiser du référencement probablement).

      Par contre, j'utilisais "custom search" ( http://www.google.com/custom?q=test&num=50 ) qui retourne à priori les mêmes résultats et qui est très facile à parser. Bien plus que la page normal avec toutes les balises vidéos / images / twitter, etc...
  • # english?

    Posté par  . Évalué à 2.

    these past five years => ces cinq derniers jours !

    L'IPOT existe encore?

    ;-)

    ⚓ À g'Auch TOUTE! http://afdgauch.online.fr

    • [^] # Re: english?

      Posté par  (site web personnel) . Évalué à 2.

      Ah ben merde alors. Désolé. En plus c'est même pas une faute de frappe : j'étais tellement convaincu qu'il s'agissait d'un remerciement aux gens qui ont manifesté leur soutien depuis que le service risque de disparaître, que j'ai lu trop vite.

      Merci d'avoir remarqué le bug. La bonne traduction, donc :
      Merci de votre soutien pendant ces cinq années.
    • [^] # Re: english?

      Posté par  . Évalué à 3.

      Bien sûr qu'il existe encore: je l'ai téléchargé pour savoir quand on l'inventera!
  • # ixquick

    Posté par  . Évalué à 2.

    Tout pareil que Scroogle, basé en Allemagne:
    http://www.ixquick.com/
    • [^] # Re: ixquick

      Posté par  (site web personnel) . Évalué à 3.

      Sauf qu'ixquick, depuis que je l'utilise (5 mois ~) je ne l'ai jamais vu utiliser que les deux tiers de sa liste de moteurs de recherche.

      Et google fait partie du tiers non utilisé, si je coche uniquement google, aucun résultat de recherche ne sort, ça en fait presque de la pub mensongère, mais vu que je ne paie rien, je ne vais pas réclamer un remboursement :p
  • # Ça remarche !

    Posté par  . Évalué à 2.

    \o/

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.