Lien Vous pouvez dire à Google si vous refusez que votre site serve à entraîner ses IA via robots.txt

Crowl est un projet de développement d’un crawler SEO collaboratif sous licence GPL v3. Développé en Python et basé sur le cadriciel Scrapy, Crowl a pour but de fournir aux professionnels du référencement un outil simple, robuste et innovant pour répondre à des besoins non couverts par les outils actuels.

Journal Télécharger tous les fichiers PDF d’un site web

Posté par Siltaär (site web personnel) le 05 avril 2018 à 14:29. Licence CC By‑SA.

Étiquettes :

15

5

avr.

2018

Il y a quelque temps j'ai eu besoin de télécharger tous les PDF d'un gros site web, et puis d'un autre…

J'ai cherché un moment comment obtenir ce que je voulais avec wget mais sans grand succès, soit wget explore récursivement le site en téléchargeant toutes les pages, soit il ne récupère que les fichiers voulus, mais je n'ai pas trouvé comment associer les deux comportements (et il serait logique que wget ait besoin de télécharger les pages du site (…)

Sortie de Asqatasun v4.0: audit accessibilité web & SEO

Posté par Matthieu FAURE (site web personnel) le 03 mars 2016 à 20:32. Édité par Benoît Sibaud et ZeroHeure. Modéré par bubar🦥. Licence CC By‑SA.

Étiquettes :

16

3

mar.

2016

Asqatasun est un moteur d'audit de pages web (licence AGPL). Il inclus un crawler permettant de scanner des dizaines de milliers de pages.

Développé en Java/Spring et s'appuyant sur des briques Selenium (Web Driver), le bébé pèse ~500 000 lignes de code. Asqatasun est traduit en 3 langues (français, anglais, espagnol) et la traduction en russe est en cours.

Logo Asqatasun

Forum Programmation.web Comment fonctionne le mode lecture de Firefox ?

Posté par LeBouquetin (site web personnel, Mastodon) le 28 octobre 2015 à 10:41. Licence CC By‑SA.

Étiquettes :

1

28

oct.

2015

Bonjour,

Je cherche à faire du crawling sur un certain nombre de sites, et je constate avec joie (et allégresse) que le mode lecture de Firefox correspond pile-poil à ce que j'aimerais récupérer comme contenu lorsque je fais mon crawling.

Ma question est double, mais simple :

sur quoi s'appuie Firefox pour déceler la partie "utile" de la partie non utile
est-ce que vous connaissez des libs / outils qui me permettrait d'intégrer cela facilement dans un outil de crawling (…)

Journal Extraction de données du web - introduction à Scrapy (journal bookmark)

Posté par LeBouquetin (site web personnel, Mastodon) le 30 janvier 2015 à 12:27. Licence CC By‑SA.

Étiquettes :

18

30

jan.

2015

Bonjour,

Ceci est un journal bookmark.

Scrapy est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.

Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."

J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation (…)

Forum général.cherche-logiciel PDF crawler

Posté par lolcat le 22 juin 2012 à 15:39.

Étiquettes :

2

22

juin

2012

Bonjour,

je cherche un software pour créer une base de donnée des PDF, en les indexant par texte.

Est-ce que l'utilisation de pdftext peut faire ça, ou est-il possible d'utiliser une librairie comme pyPDF pour extraire le contenu texte d'un pdf ?

Cdt.

Lien Télécharger tous les liens externes de wikipédia en quelques minutes

Posté par lovasoa (site web personnel) le 19 septembre 2018 à 21:57.

Étiquettes :

4

19

sept.

2018

https://github.com/lovasoa/wikipedia-externallinks-fast-extraction

Wiki [Tuto/HowTo] [PHP] Troller les annuaires du "darknet|"Deepweb"

Licence CC By‑SA.

Étiquettes :

0

9

juil.

2018

Introduction

Si vous avez un Tor Hidden Web Service, vous avez sûrement déjà croisé le cuivre des crawlers des annuaires qui ont tendance à consommer les ressources machines sans prêter gare. Nous allons voir ici comment mettre en place un script PHP permettant de générer une quantité paramétrable de fichiers rempli de faux noms de domaines Tor et ainsi pourrir les bases de données des robots malveillants.
Si vous ne souhaitez pas punir les robot respectueux, vous pouvez placer vos (…)

Tous les contenus étiquetés avec « crawler »

Introduction