Lien I recently get pinged by slowness ✂ on the ✂ infrastructure, ✂ the log makes me impressively angry✂

Crowl est un projet de développement d’un crawler SEO collaboratif sous licence GPL v3. Développé en Python et basé sur le cadriciel Scrapy, Crowl a pour but de fournir aux professionnels du référencement un outil simple, robuste et innovant pour répondre à des besoins non couverts par les outils actuels.
Si vous avez un Tor Hidden Web Service, vous avez sûrement déjà croisé le cuivre des crawlers des annuaires qui ont tendance à consommer les ressources machines sans prêter gare. Nous allons voir ici comment mettre en place un script PHP permettant de générer une quantité paramétrable de fichiers rempli de faux noms de domaines Tor et ainsi pourrir les bases de données des robots malveillants.
Si vous ne souhaitez pas punir les robot respectueux, vous pouvez placer vos (…)
Il y a quelque temps j'ai eu besoin de télécharger tous les PDF d'un gros site web, et puis d'un autre…
J'ai cherché un moment comment obtenir ce que je voulais avec wget
mais sans grand succès, soit wget explore récursivement le site en téléchargeant toutes les pages, soit il ne récupère que les fichiers voulus, mais je n'ai pas trouvé comment associer les deux comportements (et il serait logique que wget
ait besoin de télécharger les pages du site (…)
Asqatasun est un moteur d'audit de pages web (licence AGPL). Il inclus un crawler permettant de scanner des dizaines de milliers de pages.
Développé en Java/Spring et s'appuyant sur des briques Selenium (Web Driver), le bébé pèse ~500 000 lignes de code. Asqatasun est traduit en 3 langues (français, anglais, espagnol) et la traduction en russe est en cours.
Bonjour,
Je cherche à faire du crawling sur un certain nombre de sites, et je constate avec joie (et allégresse) que le mode lecture de Firefox correspond pile-poil à ce que j'aimerais récupérer comme contenu lorsque je fais mon crawling.
Ma question est double, mais simple :
Bonjour,
Ceci est un journal bookmark.
Scrapy est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.
Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."
J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation (…)
Bonjour,
je cherche un software pour créer une base de donnée des PDF, en les indexant par texte.
Est-ce que l'utilisation de pdftext peut faire ça, ou est-il possible d'utiliser une librairie comme pyPDF pour extraire le contenu texte d'un pdf ?
Cdt.