Crowl, un crawler SEO open-source

Posté par  (site web personnel) . Édité par Nils Ratusznik, Davy Defaud, Benoît Sibaud et palm123. Modéré par Pierre Jarillon. Licence CC By‑SA.
Étiquettes :
39
28
août
2018
Python

Crowl est un projet de développement d’un crawler SEO collaboratif sous licence GPL v3. Développé en Python et basé sur le cadriciel Scrapy, Crowl a pour but de fournir aux professionnels du référencement un outil simple, robuste et innovant pour répondre à des besoins non couverts par les outils actuels.

Journal Télécharger tous les fichiers PDF d’un site web

Posté par  (site web personnel) . Licence CC By‑SA.
15
5
avr.
2018

Il y a quelque temps j'ai eu besoin de télécharger tous les PDF d'un gros site web, et puis d'un autre…

J'ai cherché un moment comment obtenir ce que je voulais avec wget mais sans grand succès, soit wget explore récursivement le site en téléchargeant toutes les pages, soit il ne récupère que les fichiers voulus, mais je n'ai pas trouvé comment associer les deux comportements (et il serait logique que wget ait besoin de télécharger les pages du site (…)

Sortie de Asqatasun v4.0: audit accessibilité web & SEO

Posté par  (site web personnel) . Édité par Benoît Sibaud et ZeroHeure. Modéré par bubar🦥. Licence CC By‑SA.
16
3
mar.
2016
Internet

Asqatasun est un moteur d'audit de pages web (licence AGPL). Il inclus un crawler permettant de scanner des dizaines de milliers de pages.

Développé en Java/Spring et s'appuyant sur des briques Selenium (Web Driver), le bébé pèse ~500 000 lignes de code. Asqatasun est traduit en 3 langues (français, anglais, espagnol) et la traduction en russe est en cours.

Logo Asqatasun

Forum Programmation.web Comment fonctionne le mode lecture de Firefox ?

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
1
28
oct.
2015

Bonjour,

Je cherche à faire du crawling sur un certain nombre de sites, et je constate avec joie (et allégresse) que le mode lecture de Firefox correspond pile-poil à ce que j'aimerais récupérer comme contenu lorsque je fais mon crawling.

Ma question est double, mais simple :

  • sur quoi s'appuie Firefox pour déceler la partie "utile" de la partie non utile
  • est-ce que vous connaissez des libs / outils qui me permettrait d'intégrer cela facilement dans un outil de crawling (…)

Journal Extraction de données du web - introduction à Scrapy (journal bookmark)

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
18
30
jan.
2015

Bonjour,

Ceci est un journal bookmark.

Scrapy est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.

Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."

J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation (…)

Wiki [Tuto/HowTo] [PHP] Troller les annuaires du "darknet|"Deepweb"

0
9
juil.
2018

Introduction

Si vous avez un Tor Hidden Web Service, vous avez sûrement déjà croisé le cuivre des crawlers des annuaires qui ont tendance à consommer les ressources machines sans prêter gare. Nous allons voir ici comment mettre en place un script PHP permettant de générer une quantité paramétrable de fichiers rempli de faux noms de domaines Tor et ainsi pourrir les bases de données des robots malveillants.
Si vous ne souhaitez pas punir les robot respectueux, vous pouvez placer vos (…)