• # Re: Connaître le classement d'un site dans Google

    Posté par (page perso) . Évalué à 2.

    Serait possible de connaître l'algo utilisé ? est il sous une licence ? GPL ?


    M.
    • [^] # Re: Connaître le classement d'un site dans Google

      Posté par (page perso) . Évalué à 3.

      L'idée de base, c'est que la plupart des sites sont générés automatiquement et qu'il y a une régularité dans le code HTML. Je me synchronise donc sur des blocs de code HTML et j'extraie les informations qui m'intéressent. Ca marche sur Google et sur d'autres sites comme Autoactu (j'extraie le résumé de 120 news environ en moins de 10 secondes sans erreur).
      Pour le moment, il n'y a pas de licence. Je le diffuserai peut-être une fois que j'aurai réussi à rendre le code générique : l'idée, ce serait d'avoir une classe PHP à qui je donne un ensemble de "motifs" HTML, une séquence d'informations et qui me sort les informations dans des propriétés ->title, ->url, etc. Mais pour ça il y a encore du boulot :-).
  • # Re: Connaître le classement d'un site dans Google

    Posté par . Évalué à 1.

    C'est super intéressant, mais il m'a répondu :
    "résultat(s)" ...
  • # Re: Connaître le classement d'un site dans Google

    Posté par . Évalué à 2.

    Ca marche nikel ... 3 suggestions :

    * Rajouter quelque chose pour calculer le pagerank (je sais que c'est possible, et oui ca serait utilise parce que tu cherches a donner le classement, et le pagerank ca compte).
    * Rajouter l'ordre aux prochaines google dances
    * Utiliser google.com et non google.fr pour le calcul de "tout le web"
  • # Re: Connaître le classement d'un site dans Google

    Posté par (page perso) . Évalué à 2.

    Je suis arrivé trop tard ?

    Authorization Required

    This server could not verify that you are authorized to access the document requested. Either you supplied the wrong credentials (e.g., bad password), or your browser doesn't understand how to supply the credentials required.
  • # Re: Connaître le classement d'un site dans Google

    Posté par (page perso) . Évalué à 2.

    Pour somenews (que je dev plus vu le peu de hits que j'avais desssus) je donnais le lien d'un site, une regexp pour choper les titres/url/texte, puis une autre regexp pour choper le texte complet sur l'url chopé juste avant. C'était chiant en cas de changement de look du site.

    J'avais donc pensé faire un truc ou on donne juste le lien d'un site de news, et qu'il trouve tout seul les liens vers les articles. Ensuite comme les pages d'articles sont désormais générées automatiquement, si on les prend ensemble et qu'on fait des diffs, on vire les blocs de code identiques, il reste... l'article. Ca doit marcher à pret de 100%, je pense que c'est le type de trucs qu'utilise Google.

    Enfin maintenant je m'en fous je code d'autres trucs.
  • # Une application

    Posté par (page perso) . Évalué à 1.

    Pour info, j'ai encore travaillé sur le système.
    Il y a une application ici, dans un annuaire de flux RSS : http://rss.ecocentric.be/(...) . Il s'agit des flux générés par Retronimo (nom donné à ce logiciel d'extraction de données d'un site). Je génère ainsi des flux RSS pour 01Net, Yahoo! France, Silicon et Autoactu.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.