Journal Crawler web & Google Sets

Posté par (page perso) . Licence CC by-sa
Tags : aucun
21
11
déc.
2014

Bonjour les moules !

Comme j'ai déjà posté quelques expériences que je considère comme sympathique et que les retours étaient plutôt sympa, je vais vous parler de mon dernier délire.

Il y a deux parties que je pense assez indépendantes :

  1. Comment faire un « crawler web » en Python. Mais en ultra-simplifié (100 lignes de code), et très performant (500 pages/s). Pratique pour faire des expériences sur de gros volumes de pages web, sans se prendre la tête.
  2. palkeo sets : à partir d'un crawl de centaines de millions de pages web, comment re-créer un genre de « Google Sets ». Pour ceux qui ne l'ont pas connu, il permettait, à partir d'un ou deux éléments, de générer le reste de la liste. À partir de "janvier", pouf, on a la liste des mois par exemple. Mais on peut faire bien plus spécifique :)

J'en ai fait un article sur mon site personnel : http://www.palkeo.com/projets/sets.html
Je vous laisse le lire si ça vous intéresse (oui, c'est un journal-bookmark).

C'est tout, j'espère que ça vous intéressera (motivera à faire des trucs fun à partir d'analyse de pages web en masse ? :p)

palkeo.

  • # Demande d'explications complémentaires

    Posté par . Évalué à 4.

    Oui parce que en fait je n'ai aucune idée de ce qu'est un crawler ou "un genre de 'Google Sets'". Tu peux expliquer ?

    Merci !

    • [^] # Re: Demande d'explications complémentaires

      Posté par . Évalué à 10.

      Un crawler, c'est comme un brasseur, mais en plus rapide.

    • [^] # Re: Demande d'explications complémentaires

      Posté par . Évalué à 2.

      Un crawler, c'est un genre de wget/curl récursif : on prend une page web, on récupère ses liens, puis on recommence avec ces liens, etc.
      Là, pour aller plus vite, il utilise des listes de liens déja pré-établies.

      Sinon je n'avais jamais entendu parler de Google Sets… faut demander a google !

    • [^] # Re: Demande d'explications complémentaires

      Posté par . Évalué à 3. Dernière modification le 11/12/14 à 09:40.

      faut aller sur son site, c'est expliqué :

      Google Sets permettait, en entrant un ou plusieurs mots, de récupérer une liste des mots faisant partie du même « ensemble ». Ainsi, en entrant une ou plusieurs couleurs, on est censé obtenir les autres couleurs. Mais on peut ausi entrer une ville, une marque, une émotion, le nom d’un artiste ou d’un personnage…

      par exemple :

      http://sets.palkeo.com/?q=atari%2C+amiga%2C+amstrad

    • [^] # Re: Demande d'explications complémentaires

      Posté par . Évalué à 8. Dernière modification le 11/12/14 à 15:27.

      Un crawler c'est un un genre de « Johnny Weissmuller ». Pour ceux qui ne l'ont pas connu, il permettait, à partir d'un ou deux mouvements de bras, de générer le reste du flim.

    • [^] # Re: Demande d'explications complémentaires

      Posté par (page perso) . Évalué à 8.

      Google Sets, du coup ça a déjà été expliqué.

      Pour un crawler, c'est un outil qui va parcourir le web, en sautant de lien en lien sur chaque page.
      Ça permet donc de récupérer des pages web en masse, pour faire tout et n'importe quoi (exemple : un moteur de recherche).
      Google a donc un crawler « googlebot » ultra-sophistiqué qui se promène partout sur le web pour découvrir de nouvelles pages, par exemple.

      Et c'est bien plus dur que ça en a l'air, car si on suit naïvement de lien en lien, il suffit qu'un site contienne plein de liens vers lui-même et on peut tourner en rond dessus. On peut dire au crawler de pas crawler plus de N pages du même site, mais alors il se passe quelque chose de très intéressant : il finit par seulement se promener sur un sous-ensemble du web constitué des sites les plus densément liés entre eux. En l’occurrence, il s'agit des sites porno.

      • [^] # Re: Demande d'explications complémentaires

        Posté par (page perso) . Évalué à 5.

        ça sent le vécu :)

        • [^] # Re: Demande d'explications complémentaires

          Posté par (page perso) . Évalué à 7.

          Oh oui. J'ai même du faire une petite fonction capable de me dire si un site était pornographique, histoire de les éviter…

          Et voilà, tu viens de me donner une nouvelle idée : faire un graphe de tous les domaines et de leur connexions. Et appliquer un algo de clustering de graphe pour trouver les communautés de sites liées entre eux.
          Si j'ai raison, alors on devra voir un énorme cluster ultra-interconnecté contenant tous les sites pornos. Et plein d'autre clusters, mais lesquels ?

          Bon voilà, si je suis inspiré d'ici quelques mois il y aura un nouveau journal sur les clusters de sites web :p

        • [^] # Re: Demande d'explications complémentaires

          Posté par (page perso) . Évalué à 5.

          ya phoronix aussi… :/

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.