Bonjour,
Je cherche à faire du crawling sur un certain nombre de sites, et je constate avec joie (et allégresse) que le mode lecture de Firefox correspond pile-poil à ce que j'aimerais récupérer comme contenu lorsque je fais mon crawling.
Ma question est double, mais simple :
- sur quoi s'appuie Firefox pour déceler la partie "utile" de la partie non utile
- est-ce que vous connaissez des libs / outils qui me permettrait d'intégrer cela facilement dans un outil de crawling (…)