Forum Programmation.web Comment fonctionne le mode lecture de Firefox ?

Posté par (page perso) . Licence CC by-sa.
1
28
oct.
2015

Bonjour,

Je cherche à faire du crawling sur un certain nombre de sites, et je constate avec joie (et allégresse) que le mode lecture de Firefox correspond pile-poil à ce que j'aimerais récupérer comme contenu lorsque je fais mon crawling.

Ma question est double, mais simple :

  • sur quoi s'appuie Firefox pour déceler la partie "utile" de la partie non utile
  • est-ce que vous connaissez des libs / outils qui me permettrait d'intégrer cela facilement dans un outil de crawling (...)

Journal Extraction de données du web - introduction à Scrapy (journal bookmark)

Posté par (page perso) . Licence CC by-sa.
18
30
jan.
2015

Bonjour,

Ceci est un journal bookmark.

Scrapy est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.

Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."

J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation (...)