Lien Vous pouvez dire à Google si vous refusez que votre site serve à entraîner ses IA via robots.txt

Je cherche à faire du crawling sur un certain nombre de sites, et je constate avec joie (et allégresse) que le mode lecture de Firefox correspond pile-poil à ce que j'aimerais récupérer comme contenu lorsque je fais mon crawling.

Ma question est double, mais simple :

sur quoi s'appuie Firefox pour déceler la partie "utile" de la partie non utile
est-ce que vous connaissez des libs / outils qui me permettrait d'intégrer cela facilement dans un outil de crawling (…)

Journal Extraction de données du web - introduction à Scrapy (journal bookmark)

Posté par LeBouquetin (site web personnel, Mastodon) le 30 janvier 2015 à 12:27. Licence CC By‑SA.

Étiquettes :

18

30

jan.

2015

Bonjour,

Ceci est un journal bookmark.

Scrapy est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.

Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."

J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation (…)

Tous les contenus étiquetés avec « crawling »