Crowl, un crawler SEO open-source

Posté par Julien Deneuville (site web personnel) le 28 août 2018 à 22:03. Édité par Nils Ratusznik, Davy Defaud, Benoît Sibaud et palm123. Modéré par Pierre Jarillon. Licence CC By‑SA.

Étiquettes :

août

2018

Crowl est un projet de développement d’un crawler SEO collaboratif sous licence GPL v3. Développé en Python et basé sur le cadriciel Scrapy, Crowl a pour but de fournir aux professionnels du référencement un outil simple, robuste et innovant pour répondre à des besoins non couverts par les outils actuels.

À quoi sert un crawler SEO ?

Crawler, spider, scraper ou robot d’indexation : quel que soit le nom qu’on leur donne, de nombreux robots parcourent le Web et réalisent différentes tâches. La plupart du temps, il s’agit de récupérer des informations sur les pages Web et de les stocker.

Pour les professionnels du SEO, le modèle est Googlebot : la famille de robots d’indexation de Google. Ces robots parcourent chaque jour des dizaines de milliards de pages Web. Mais les besoins d’un moteur de recherche ne sont pas les mêmes que ceux d’un référenceur : là où le premier doit parcourir le Web dans son intégralité, le second cherche à optimiser un seul site (à la fois).

Les informations récupérées sont variables, mais on s’intéressera au statut HTTP des pages, à leur contenu ou encore aux liens qui les relient. Ces informations permettent ensuite de réaliser différentes analyses et de définir les chantiers d’optimisation du site concerné. Il peut s’agir de problèmes simples (liens cassés, redirections inutiles, pages dupliquées…) ou d’analyses plus complexes (répartition de la popularité interne, pertinence du contenu…).

Yet another crawler?

De nombreux outils existent sur le marché, mais la plupart sont commerciaux ou obsolètes. Par ailleurs, ils sont souvent limités d’une manière ou d’une autre dans leur fonctionnement. Bon nombre sont limités quant au volume de pages à traiter, ou aux informations qu’il est possible de récupérer.

Ainsi, il n’est pas rare que des référenceurs se lancent dans la conception d’un crawler pour dépasser ces limitations. Malheureusement, ce sont souvent des initiatives isolées, et « crawler » le Web n’est pas aussi simple qu’il n’y paraît.

Au fil de discussions avec quelques confrères, nous avons réalisé que nous étions plusieurs à travailler sur les mêmes problématiques en parallèle. Afin de mettre nos efforts en commun, nous avons décidé de lancer un projet open source, dans l’espoir d’attirer d’autres contributeurs.

Comment fonctionne Crowl

Crowl est basé sur Scrapy, un cadriciel Python qui permet d’extraire facilement des données depuis les sites Web. C’est une excellente base de départ, d’autant plus que Python est un langage facile d’accès et déjà utilisé par de nombreux référenceurs, notamment pour ses capacités en science des données. Cependant, Scrapy n’est pas pensé pour répondre aux besoins d’un crawler SEO et demande un certain nombre de configurations et d’adaptations.

En l’état, Crowl propose donc un projet Scrapy configuré pour les besoins génériques des référenceurs. Il est capable de parcourir l’intégralité d’un site Internet et de stocker les informations utiles dans une base de données MySQL.

Nous proposons en outre une méthode de calcul du poids des liens sortant d’une page Web, basée sur leur hauteur respective dans le code source. Ceci permet le calcul d’un PageRank interne plus précis, car les liens en pied de page sont ainsi dévalués.

Feuille de route et perspectives

Si l’outil est déjà opérationnel, il reste très basique pour l’instant. Nous avons déjà de nombreuses idées pour l’améliorer, qui seront mises en place au fil du temps et de la disponibilité des contributeurs.

Parmi ces idées, on peut citer le choix de multiples options de sauvegarde des données en plus de MySQL, la configuration des options au moyen d’un fichier de configuration, ou encore la création d’une interface utilisateur pour lancer les crawls et en analyser les résultats.

L’objectif est de séparer les principales fonctionnalités en une suite de modules indépendants pour traiter :

le crawl en lui‐même ;
les traitements post‐crawl ;
les interfaces de lancement et d’analyse d’un crawl.

Toute contribution est la bienvenue, y compris de la part de personnes qui ne sont pas issues du milieu du SEO : les contributeurs actuels n’étant pas des développeurs professionnels, nous sommes preneurs des conseils de personnes plus aguerries.

Aller plus loin

Site officiel de Crowl (1581 clics)
Dépôt GitLab (335 clics)
Site du cadriciel Scrapy (259 clics)

# bravo

Posté par abriotde (site web personnel, Mastodon) le 30 août 2018 à 09:49. Évalué à 1.

Très belle initiative.

Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.
- [^] # Re: bravo
  
  Posté par Julien Deneuville (site web personnel) le 31 août 2018 à 10:19. Évalué à 2.
  
  Merci :-)
- [^] # Re: bravo
  
  Posté par voxdemonix le 31 août 2018 à 12:44. Évalué à 2. Dernière modification le 31 août 2018 à 12:45.
  
  Youpee, encore un énième scrapy qui va bouffer nos ressources pour permettre à d'autres de se faire de l'argent sur notre dos.
  Et comme la plus part des trucs basé sur scrapy, le robot.txt à l'air d'être un truc OSEF.
  
  J'espère que vous avez au moins mis un user-agent par défaut histoire qu'on puisse bloquer les plus noobs.
  - [^] # Re: bravo
    
    Posté par Julien Deneuville (site web personnel) le 01 septembre 2018 à 10:43. Évalué à 7.
    
    Bonjour,
    
    Youpee, Crowl respecte par défaut le robots.txt !
    Youpee, Crowl possède par défaut un user-agent spécifique !
    
    Youpee, le but d'un crawler SEO c'est d'analyser un site pour le faire progresser et donc de vous faire gagner plus d'argent !
    
    Bonne journée ;)
# Quelles sont les informations utiles ?

Posté par LeBouquetin (site web personnel, Mastodon) le 30 août 2018 à 13:43. Évalué à 4.

En l’état, Crowl propose donc un projet Scrapy configuré pour les besoins génériques des référenceurs. Il est capable de parcourir l’intégralité d’un site Internet et de stocker les informations utiles dans une base de données MySQL.

J'avais testé des outils en mode SAAS permettant de faire ce travail et donc de proposer des pistes d'amélioration, de détecter des faiblesses, etc.

Quelles sont les informations utiles remontées par Crowl ?

Nous proposons en outre une méthode de calcul du poids des liens sortant d’une page Web, basée sur leur hauteur respective dans le code source. Ceci permet le calcul d’un PageRank interne plus précis, car les liens en pied de page sont ainsi dévalués.

Je ne suis pas certain de comprendre ce paragraphe (le "poids des liens sortant" m'induit peut-être en erreur). Ce que fait Crowl, c'est de calculer le PageRank des pages internes en fonction de la position des liens qui pointent vers cette page ? Genre si j'ai un lien "créer un compte" dans le header et que ce bouton pointe vers la page "/account/new", cela donnera un bon PageRank à la page de création de compte, ce qui permet de déterminer si les pages que l'on doit mettre en valeur sont bien celles qui sont effectivement mises en valeur. C'est bien ça ?

#tracim pour la collaboration d'équipe __ #galae pour la messagerie email __ dirigeant @ algoo
- [^] # Re: Quelles sont les informations utiles ?
  
  Posté par LeBouquetin (site web personnel, Mastodon) le 30 août 2018 à 22:33. Évalué à 5.
  
  J'avais prévu de compléter le commentaire précédent suite à mes tests, mais finalement, comme j'ai testé en même temps OpenDBViewer 1.1.0 le résultat a pris la forme d'un journal qui relate mes manipulations Crowl & OpenDBViewer.
  
  #tracim pour la collaboration d'équipe __ #galae pour la messagerie email __ dirigeant @ algoo
  - [^] # Re: Quelles sont les informations utiles ?
    
    Posté par Julien Deneuville (site web personnel) le 31 août 2018 à 10:36. Évalué à 2.
    
    Bonjour et merci pour ce retour d'expérience.
    
    L'outil est encore à un stade peu avancé, et nous avons quelques éléments à régler (dont l'affichage plus clair de la base de données créée).
    
    Les données collectées pour l'instant sont celles que l'on trouve dans la base de données, comme expliqué dans votre journal :-)
    Nous ajouterons bientôt de nouvelles informations, ainsi qu'un export en CSV pour que ceux qui le souhaitent puissent se passer de MySQL.
    
    Concernant le PageRank, Crowl n'en effectue pas le calcul, mais collecte les données nécessaires pour le faire. Il "suffit" ensuite de créer un graphe du site parcouru à l'aide de la table des liens, pour ensuite calculer le PageRank. Des librairies, comme iGraph ou Networkx en Python par exemple, permettent de le faire en quelques lignes de code. Et ce calcul peut se faire de manière simple (tous les liens ayant le même poids) ou en pondérant les liens (d'où le calcul d'un poids, ici basé sur la hauteur du lien dans le code source de la page source).
- [^] # Re: Quelles sont les informations utiles ?
  
  Posté par steph1978 le 31 août 2018 à 10:50. Évalué à 5. Dernière modification le 31 août 2018 à 10:52.
  
  Le pagerank repose grossomodo sur le nombre de pages pointant vers la page considérée. Là ils introduisent un pondération partant du principe que plus ce lien est bas dans la page source moins ce poids est important.
  Exemple, si toutes les pages d'un site ont en bas de page un lien vers la page "contact", le pagerank de la page "contact" est très élevé. Mais avec cette pondération, comme ce lien est en bas, le pagerank est réduit.
  Il y aussi une approximation qui dirait que bas de page est environ lié à fin de code source bien que en pratique, CSS et JS peuvent rompre ce lien.
  - [^] # Re: Quelles sont les informations utiles ?
    
    Posté par Julien Deneuville (site web personnel) le 01 septembre 2018 à 10:44. Évalué à 1.
    
    C'est exactement ça :-)

# Problème avec python 3.7?

Posté par Panhwein le 03 septembre 2018 à 17:43. Évalué à 1. Dernière modification le 03 septembre 2018 à 19:22.

Bonjour,

Je suis assez intéréssé par votre project et j'aimerai bien contribuer, cependant je n'arrive pas a le faire tourner.

A l'installation des dépendances python, reppy 0.4.9 génère des erreurs lors de la compilation(gcc 8.2).
J'ai donc installé la dernière version à la place.

Et au lancement de crowl, scrappy démarre bien mais twisted n'a pas l'air content du tout!

$python crowl.py -l -c -u https://www.algoo.fr/ -b algoo
2018-09-03 17:34:12 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: scrapybot)
2018-09-03 17:34:12 [scrapy.utils.log] INFO: Versions: lxml 4.2.1.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.4.0, w3lib 1.19.0, Twisted 18.4.0, Python 3.7.0 (default, Jul 15 2018, 10:44:58) - [GCC 8.1.1 20180531], pyOpenSSL 18.0.0 (OpenSSL 1.1.0h  27 Mar 2018), cryptography 2.2.2, Platform Linux-4.14.67-1-MANJARO-x86_64-with-arch-Manjaro-Linux
2018-09-03 17:34:12 [scrapy.crawler] INFO: Overridden settings: {'CONCURRENT_REQUESTS': 5, 'DEPTH_PRIORITY': 1, 'DOWNLOAD_DELAY': 0.5, 'LOG_LEVEL': 'INFO', 'RETRY_ENABLED': False, 'ROBOTSTXT_OBEY': True, 'SCHEDULER_DISK_QUEUE': 'scrapy.squeues.PickleFifoDiskQueue', 'SCHEDULER_MEMORY_QUEUE': 'scrapy.squeues.FifoMemoryQueue', 'USER_AGENT': 'Crowl (+https://www.crowl.tech/)'}
Traceback (most recent call last):
  File "crowl.py", line 118, in <module>
    process.crawl(Crowler, **conf)
  File "/usr/lib/python3.7/site-packages/scrapy/crawler.py", line 170, in crawl
    crawler = self.create_crawler(crawler_or_spidercls)
  File "/usr/lib/python3.7/site-packages/scrapy/crawler.py", line 198, in create_crawler
    return self._create_crawler(crawler_or_spidercls)
  File "/usr/lib/python3.7/site-packages/scrapy/crawler.py", line 203, in _create_crawler
    return Crawler(spidercls, self.settings)
  File "/usr/lib/python3.7/site-packages/scrapy/crawler.py", line 55, in __init__
    self.extensions = ExtensionManager.from_crawler(self)
  File "/usr/lib/python3.7/site-packages/scrapy/middleware.py", line 58, in from_crawler
    return cls.from_settings(crawler.settings, crawler)
  File "/usr/lib/python3.7/site-packages/scrapy/middleware.py", line 34, in from_settings
    mwcls = load_object(clspath)
  File "/usr/lib/python3.7/site-packages/scrapy/utils/misc.py", line 44, in load_object
    mod = import_module(module)
  File "/usr/lib/python3.7/importlib/__init__.py", line 127, in import_module
    return _bootstrap._gcd_import(name[level:], package, level)
  File "<frozen importlib._bootstrap>", line 1006, in _gcd_import
  File "<frozen importlib._bootstrap>", line 983, in _find_and_load
  File "<frozen importlib._bootstrap>", line 967, in _find_and_load_unlocked
  File "<frozen importlib._bootstrap>", line 677, in _load_unlocked
  File "<frozen importlib._bootstrap_external>", line 728, in exec_module
  File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed
  File "/usr/lib/python3.7/site-packages/scrapy/extensions/telnet.py", line 12, in <module>
    from twisted.conch import manhole, telnet
  File "/usr/lib/python3.7/site-packages/twisted/conch/manhole.py", line 154
    def write(self, data, async=False):
                              ^
SyntaxError: invalid syntax

Une idée pour régler ça?
(Je suis sous manjaro)

[^] # Re: Problème avec python 3.7?

Posté par nigaiden le 04 septembre 2018 à 07:39. Évalué à 1.

Il s'agit d'une incompatibilité de version comme tu l'as constaté. Le fil de discussion suivant propose deux workarounds (côté twisted ou bien côté scrapy): https://github.com/scrapy/scrapy/issues/3143

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

À quoi sert un crawler SEO ?

Yet another crawler?

Comment fonctionne Crowl

Feuille de route et perspectives

Aller plus loin

À quoi sert un crawler SEO ?