Journal Connaître le classement d'un site dans Google

Posté par Robert VISEUR (site web personnel) le 21 avril 2004 à 00:18.

Étiquettes : aucune

avr.

2004

Je viens de mettre en ligne à l'adresse http://wigle.ecocentric.be/(...) un outil pour connaître le classement d'un site sur Google. Vos avis sont les bienvenus (rapports de bogues, par exemple).

# Re: Connaître le classement d'un site dans Google

Posté par kolter (site web personnel, Mastodon) le 21 avril 2004 à 00:26. Évalué à 2.

Serait possible de connaître l'algo utilisé ? est il sous une licence ? GPL ?

M.
- [^] # Re: Connaître le classement d'un site dans Google
  
  Posté par Robert VISEUR (site web personnel) le 21 avril 2004 à 00:38. Évalué à 3.
  
  L'idée de base, c'est que la plupart des sites sont générés automatiquement et qu'il y a une régularité dans le code HTML. Je me synchronise donc sur des blocs de code HTML et j'extraie les informations qui m'intéressent. Ca marche sur Google et sur d'autres sites comme Autoactu (j'extraie le résumé de 120 news environ en moins de 10 secondes sans erreur).
  Pour le moment, il n'y a pas de licence. Je le diffuserai peut-être une fois que j'aurai réussi à rendre le code générique : l'idée, ce serait d'avoir une classe PHP à qui je donne un ensemble de "motifs" HTML, une séquence d'informations et qui me sort les informations dans des propriétés ->title, ->url, etc. Mais pour ça il y a encore du boulot :-).
  - [^] # Re: Connaître le classement d'un site dans Google
    
    Posté par Ju. le 21 avril 2004 à 00:44. Évalué à 1.
    
    D'ailleurs pour Google et leur changement de look recent tu as du avoir des petits soucois pour recuperer les resultats... non ?
    
    Remarque si ton site marche bien, ils laissent encore l'acces à leurs API, Google ?
    
    Je me rappelle qu'on pouvait extraire les resultats d'une recherche Google directement :
    http://www.google.com/apis/api_faq.html#gen7(...)
    
    Ca c'est vraiment l'idéal... mais 1000 par jour c'est peut etre court...
    - [^] # Re: Connaître le classement d'un site dans Google
      
      Posté par Sébastien Corbeau (site web personnel) le 21 avril 2004 à 00:47. Évalué à 1.
      
      Rahhhhhhhhhh 2 minutes d'intervalle :)
      - [^] # Re: Connaître le classement d'un site dans Google
        
        Posté par Ju. le 21 avril 2004 à 00:50. Évalué à 1.
        
        Arf !
        
        C'est plus linuxfr c'est lircnuxfr...
        
        ;-)
    - [^] # Re: Connaître le classement d'un site dans Google
      
      Posté par Robert VISEUR (site web personnel) le 21 avril 2004 à 01:00. Évalué à 1.
      
      J'ai testé ça hier, donc après le changement de look. Je verrai plus tard si c'est robuste.
      Je n'utilise pas l'API. Le but initial était de pouvoir extraire de sites de news le titre et l'url des news (un peu comme le fait Google News). Après coup, j'ai testé sur Google (on me disait que ça ne marcherait sans doute pas).
      Du point de vue légalité, je dois encore me renseigner sur la légalité de ce type de pratique vis-à-vis de Google.
      - [^] # Re: Connaître le classement d'un site dans Google
        
        Posté par Sasuke le 21 avril 2004 à 01:04. Évalué à 1.
        
        Ui, mais attention : j'ai ouï dire que pour google si tu tentes d'extraire par un autre moyen que l'api (pour beaucoup de requetes), ils te blacklistent l'ip.
        
        [^] # Re: Connaître le classement d'un site dans Google
        
        Posté par Robert VISEUR (site web personnel) le 21 avril 2004 à 01:16. Évalué à 1.
        
        En fait, c'est bien illégal. J'ai enfin retrouvé la source, sur le site de Google :
        
        Vous ne devez pas transmettre de requêtes automatisées d'aucune sorte aux systèmes de Google sans autorisation explicite et préalable de Google. Par « requêtes automatisées », nous entendons également l'utilisation de tout logiciel qui transmet des requêtes à Google pour déterminer le « rang » obtenu par un site Web dans les index Google en fonction de différents termes de recherche.
        
        Vous ne devez en aucun cas réutiliser les résultats des recherches Google par reformatage et affichage, ni reproduire la page d'accueil de Google ou les pages de résultats sur votre site Web. Vous ne devez pas utiliser Google dans des « métarecherches ».
        
        Bon bein, je sais ce qu'il me reste à faire :(
  - [^] # Re: Connaître le classement d'un site dans Google
    
    Posté par Sébastien Corbeau (site web personnel) le 21 avril 2004 à 00:46. Évalué à 2.
    
    Je pense que la google API serait plus adaptée que l'analyse des pages html, non? A regarder si c'est possible avec.
    http://www.google.fr/apis/(...)
    http://www.webrankinfo.com/google/outils/google-api.php(...)
    - [^] # Re: Connaître le classement d'un site dans Google
      
      Posté par Sasuke le 21 avril 2004 à 00:47. Évalué à 1.
      
      lol tu m'as volé le post, c'est dangereux ca google peut bannir si je ne m'abuse.
# Re: Connaître le classement d'un site dans Google

Posté par Barthelemy le 21 avril 2004 à 00:26. Évalué à 1.

C'est super intéressant, mais il m'a répondu :
"résultat(s)" ...
# Re: Connaître le classement d'un site dans Google

Posté par Sasuke le 21 avril 2004 à 00:35. Évalué à 2.

Ca marche nikel ... 3 suggestions :

* Rajouter quelque chose pour calculer le pagerank (je sais que c'est possible, et oui ca serait utilise parce que tu cherches a donner le classement, et le pagerank ca compte).
* Rajouter l'ordre aux prochaines google dances
* Utiliser google.com et non google.fr pour le calcul de "tout le web"
# Re: Connaître le classement d'un site dans Google

Posté par Sylvain (site web personnel) le 21 avril 2004 à 02:22. Évalué à 2.

Je suis arrivé trop tard ?

Authorization Required

This server could not verify that you are authorized to access the document requested. Either you supplied the wrong credentials (e.g., bad password), or your browser doesn't understand how to supply the credentials required.
- [^] # Re: Connaître le classement d'un site dans Google
  
  Posté par Robert VISEUR (site web personnel) le 21 avril 2004 à 02:27. Évalué à 2.
  
  Oui
  Voir la raison : http://linuxfr.org/comments/395591.html(...) .
# Re: Connaître le classement d'un site dans Google

Posté par Fabien Penso (site web personnel, Mastodon) le 21 avril 2004 à 11:31. Évalué à 2.

Pour somenews (que je dev plus vu le peu de hits que j'avais desssus) je donnais le lien d'un site, une regexp pour choper les titres/url/texte, puis une autre regexp pour choper le texte complet sur l'url chopé juste avant. C'était chiant en cas de changement de look du site.

J'avais donc pensé faire un truc ou on donne juste le lien d'un site de news, et qu'il trouve tout seul les liens vers les articles. Ensuite comme les pages d'articles sont désormais générées automatiquement, si on les prend ensemble et qu'on fait des diffs, on vire les blocs de code identiques, il reste... l'article. Ca doit marcher à pret de 100%, je pense que c'est le type de trucs qu'utilise Google.

Enfin maintenant je m'en fous je code d'autres trucs.
# Une application

Posté par Robert VISEUR (site web personnel) le 14 mai 2004 à 15:23. Évalué à 1.

Pour info, j'ai encore travaillé sur le système.
Il y a une application ici, dans un annuaire de flux RSS : http://rss.ecocentric.be/(...) . Il s'agit des flux générés par Retronimo (nom donné à ce logiciel d'extraction de données d'un site). Je génère ainsi des flux RSS pour 01Net, Yahoo! France, Silicon et Autoactu.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.