LinuxFr.org : les contenus étiquetés avec « scrapy »

scraplap, pour mouler offline

2018-11-06T00:50:07+01:00

Bonjour nal,

Je prends la plume pour présenter scraplap.

Cet outil n'avait pas de nom à sa création. Mais pour se présenter, un nom est bien utile.
J'ai donc "inventé" le terme LAP, pour link aggregation platform ; une plateforme qui agrège des liens vers du contenu sur un sujet plus ou moins large et qui permet bien souvent de les noter et les commenter. On peut penser à Reddit, à Lobsters, à Journal du hacker.
Scrap est quant à lui le diminutif de scrapy, la bibliothèque python que j'utilise pour faire le scraping.

Scraplap s'inscrit dans la mouvance weboob, qui consiste à permettre des usages web hors navigateur (gérer sa banque, faire des rencontres, etc.). Pour ma part je suis intéressé par l'usage contentoob : consulter du contenu produit pour le web hors du navigateur. Dans ce domaine, les formats rss/atom et epub sont très utiles pour proposer du contenu sans passer par le navigateur. Ils permettent de ne pas avoir à développer d'application cliente spécifique ; une tâche trop ardue à mon goût. Il y a de très bon lecteurs RSS, sur toutes les plateformes.

Une LAP comme Lobsters propose déjà un fil d'actualités en RSS. Cependant, ils ne s'autorisent pas à y inclure du contenu qui n'est pas produit par la plateforme. On y retrouve donc que les liens vers les articles, pas les articles eux-mêmes. Or c'est typiquement là que je souhaite du contentoob. Je ne souhaite pas sortir du lecteur de fils et devoir être en ligne pour lire l'article. Scraplap fait ce travail pour moi. Il parcourt le fil d'actualité de la LAP, va chercher les articles en ligne et les remets dans un nouveau flux.

Pour que les articles soient lisibles dans le lecteur de fils d'actu, l'outil applique le même algorithme que le mode lecteur de Firefox, grâce à une implémentation python basée sur lxml. Ce mécanisme mériterai un article à part entière.

Scraplap a connu deux releases. La première, très intimiste, était stateless, elle lisait le fil source et produisait le fil résultat en même temps. Cela posait plein de problèmes qui sont expliqués dans ce document de design ; désolé, c'est en anglais. La release actuelle est statefull, elle récupère les nouveaux articles, les stocke en DB, puis construit le fil résultat.

Le code est disponible sur Framagit, l'instance gitlab de Framasoft. J'en ai profité pour mettre en place un don récurent car je veux soutenir leur initiative de dégafamisation. Les fils d’actu sont disponibles sur mon hosting, pour lobsters et pour journalduhacker.

Si ce type d'outils vous intéresse, vous pouvez alimenter la backlog, faire des PR, commenter.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Weboob sort une nouvelle version qui va vous porter chance

2017-09-21T14:56:02+02:00

Weboob (Web Outside Of Browsers) est un ensemble d’applications et de modules interagissant avec des sites Web.

Ce projet peut également être utilisé comme une bibliothèque permettant de grandement simplifier l’extraction de données des sites Web. Pour du prêt à l’emploi, Weboob compte aujourd’hui 241 modules qui permettent d’accéder à de nombreux sites Web sans passer par un navigateur standard.

Sans être exhaustive, la suite de la dépêche vous propose de découvrir quelques nouveautés de la nouvelle version 1.3, sortie mercredi 20 septembre 2017, que ce soit pour les utilisateurs et utilisatrices ou les développeuses et développeurs. Nous détaillons également la vie du projet en fin de dépêche, notamment notre participation à la PyConFr du 21 au 24 septembre 2017.

lien nᵒ 1 : Site Web
lien nᵒ 2 : Liste complète des changements
lien nᵒ 3 : Installation
lien nᵒ 4 : Modules
lien nᵒ 5 : Applications
lien nᵒ 6 : Code sur le GitLab du projet
lien nᵒ 7 : Dépêche sur la PyConFr 2017

Sommaire

Services bancaires et administratifs
- Ajout de bénéficiaire pour les virements
- Nouveaux modules
Logements
Vie privée et --auto-update
Nouvelle application QGalleroob
Dans les entrailles du développement
Liste exhaustive des nouveaux modules
Communauté
- Dernière assemblée générale
- PyConFr 2017
Contributeurs

Services bancaires et administratifs

Ajout de bénéficiaire pour les virements

Le système de virement avait été revu lors de la précédente version, afin de permettre un processus plus complet notamment lors de la demande d’informations complémentaires (exemple : un code envoyé par SMS). Nous franchissons une nouvelle étape dans la prise en charge de ces virements en permettant désormais l’ajout de bénéficiaires pour les virements (grâce à la sous‐capacité CapBankTransferAddRecipient). Si le site utilise un code unique par SMS, boobank le demandera pour finaliser l’ajout de la même manière que pour les virements. Neuf modules ont déjà cette fonctionnalité activée.

Nouveaux modules

Les modules bancaires sont de nouveau à la pointe grâce au soutien de l’entreprise Budget Insight qui utilise et contribue massivement à Weboob. On compte ainsi dix nouveaux modules bancaires et la liste des changements sur les modules existants est assez impressionnante.

Les modules qui permettent de simplifier la gestion administrative au quotidien ne sont pas en reste. On peut noter le téléchargement des fiches de paie pour tous les fonctionnaires d’état via le module ENSAP, ainsi que le téléchargement des factures du fournisseur de gaz Lampiris. N’oublions pas, pour les Parisiens, la gestion des réservations de livres dans les bibliothèques (module bibliothequesparis). On regrettera en revanche la disparition du module pour les bibliothèques rennaises, qui n’était plus maintenu.

Logements

Il est très difficile de chercher un logement en zone densément peuplée. Les offres sont très nombreuses, souvent dupliquées sur plusieurs sites. Le travail de veille est lourd et les logements partent très vite. C’est ainsi qu’un contributeur a développé Flatisfy, en utilisant les modules immobiliers de Weboob comme backend. L’objectif de cette application est de vous permettre de spécifier des filtres pour votre recherche de logements (secteur, loyer, nombre de pièces, temps de trajet), puis d’offrir une interface conviviale autour de ces résultats, en groupant les doublons et en affichant tous les résultats de façon uniforme, quel que soit le site d’origine de l’annonce. Flatisfy a été testé et approuvé à Lyon et Paris pour l’instant. Pour plus d’informations, vous pouvez regarder cet article de l’auteur.

Le développement de Flatisfy a été l’occasion de tester et mettre à jour les modules de recherche de logements. Outre les corrections de bogues sur les modules existants, les principaux changements sont :

l’ajout d’un module pour récupérer les annonces de Foncia ;
l’homogénéisation des résultats retournés par les divers modules, afin que les numéros de téléphone soient formatés de façon similaire, et que toutes les informations disponibles soient bien récupérées ;
l’ajout d’un nouveau champ utilities sur les Housing, afin de mentionner si les charges sont incluses ou non dans le loyer récupéré par le module ;
l’ajout de deux nouveaux champs rooms et bedrooms sur Housing, afin d’avoir une façon homogène entre les modules de représenter le nombre de pièces et de chambres du bien.

Vie privée et --auto-update

Par défaut, les applications Weboob vérifiaient automatiquement les mises à jour des modules quand un module rencontrait une erreur. C’est très pratique dans un projet comme Weboob qui est face à des sites volatiles, mais a des conséquences négatives en termes de respect de la vie privée. Un utilisateur a ouvert un ticket avec un argumentaire détaillé et nous avons pris en compte ses remarques. La mise à jour automatique est donc désormais optionnelle, désactivée par défaut et peut être réactivée à l’aide de --auto-update.

Rappelons qu’il est dans tous les cas toujours possible de rechercher des mises à jour manuellement avec weboob update.

Nouvelle application QGalleroob

Une nouvelle application Qt permet de faire des recherches d’images et de galeries : QGalleroob.

Dans les entrailles du développement

Prise en charge des versions de Python

Le cœur de Weboob ainsi que les applications Weboob sont maintenant compatibles Python 2.7 et Python 3.
De nombreux modules sont déjà compatibles Python 2 et Python 3, et de nouveaux seront portés au fur et à mesure. Les modules n’étant toujours pas compatibles sont dans une grande majorité des modules abandonnés, dont le fonctionnement est probablement douteux. Ils seront donc probablement supprimés dans les prochaines versions.

En fonction des retours sur Python 3 et de l’avancée du portage, il ne restera plus qu’une ou deux versions de Weboob qui prendront encore en charge Python 2.7. Nous prévoyons de changer de numéro majeur de version (et de passer donc à Weboob 2.0) au cours de l’année 2018, et donc à une version qui n’aura plus Python 2.7.

Nouveaux filtres

Les filtres sont des aides essentiels dans les modules Weboob, ils permettent notamment de simplifier l’extraction des données en utilisant une syntaxe très déclarative (il y a beaucoup de magie dedans). De nouveaux filtres spécialisés font leur apparition dans cette version :

AbsoluteLink : construit une adresse URL absolue à partir d’un lien HTML (contrairement au filtre Link qui retourne la valeur brute) ;
FormValue : permet d’obtenir la valeur courante d’un élément de formulaire (par exemple dans un tag select) ;
HasElement : retourne une valeur suivant la présence ou non d’un élément HTML ;
QueryValue : retourne la valeur d’un paramètre contenu dans la partie query d’une URL (par exemple, value pour url?param=value).

Outils de débogage

Deux nouveaux mécanismes ont été ajoutés pour aider à trouver les problèmes quand on écrit un module.

Dans une session de débogage avec pdb (ou temporairement dans le code d’un module) :

>>> import weboob
>>> weboob.browser.elements.magic_highlight(self.el.xpath('.//div[has-class("foo")]'))

Cela ouvrira la page courante dans un navigateur pour déboguer, avec tous les éléments correspondants à l’expression XPath, mis en surbrillance. Il est possible de mettre également en surbrillance toutes les zones d’une page qui sont extraites par le module. Pour cela, il faut ajouter _highlight_el = 1 à la configuration du module que l’on veut déboguer.

Un autre outil très pratique est l’exportation de sessions et son chargement via une extension Web dans Firefox ou chrome. Dans le dossier contrib, un dossier complet nommé webextension-session-importer permet cette performance (voir le fichier README pour plus de détails).

Liste exhaustive des nouveaux modules

bibliothequesparis (CapBook) ;
billetreduc (CapCalendarEvent) ;
blogspot (CapMessages) ;
bnppere (CapBank) ;
btpbanque (CapBank) ;
capeasi (CapBank) ;
cices (CapBank) ;
cityscoot (CapDocument) ;
cmes (CapBank) ;
cmmc (CapBank, CapContact) ;
ensap (CapDocument) ;
erehsbc (CapBank) ;
esalia (CapBank) ;
foncia (CapHousing) ;
lameteoagricole (CapWeather) ;
lampiris (CapDocument) ;
larousse (CapTranslate) ;
linebourse (CapBank) ;
myfoncia (CapDocument) ;
pixabay (CapFile, CapImage) ;
pradoepargne (CapBank) ;
tumblr (CapGallery) ;
zerobin (CapPaste).

Communauté

Dernière assemblée générale

Le projet Weboob est protégé par une association qui a pour but de soutenir le développement et de permettre l’indépendance du projet par rapport à des entreprises qui peuvent être très contributrices (on les en remercie beaucoup). Si cette association n’est pas toujours très active, nous avons réuni une assemblée générale le 10 juillet 2017 à Paris. Le bureau de l’association (qui nomme notamment le release manager, ayant le pouvoir d’accepter ou refuser des contributions) a été entièrement reconduit.

Les membres du bureau sont cependant tous investis depuis longtemps dans le projet et seraient très volontiers prêts à céder leurs places à de nouveaux contributeurs ou contributrices.

PyConFr 2017

Les développeurs Weboob seront présents en force à cette édition de PyConFr ! L’ensemble des membres du bureau de l’association sera notamment présent.

Un atelier sera animé le samedi 23 septembre 2017 de 14 h à 16 h, ce sera l’occasion de développer votre premier module. Deux conférences seront présentées le dimanche 24 septembre 2017 de 15 h à 16 h :

N’hésitez pas à passer nous voir, poser des questions, faire vos premières contributions, discuter de l’avenir du projet, etc.

Contributeurs

Merci aux contributeurs qui ont participé à cette version :

Baptiste Delpey ;
Barthélemy Gouby ;
Benjamin Bouvier ;
Benjamin Carton ;
Benjamin Tampigny ;
Christophe Lampin ;
David Kremer ;
Edouard Lambert ;
Florent Fourcot ;
Florian ;
Florian Duguet ;
François Revol ;
Frédéric Lépy ;
Guillaume Lundy ;
Guillaume Seznec ;
James Galt ;
Jean Walrave ;
Jonathan Schmidt ;
Juliette Fourcot ;
Laurent Bachelier ;
Louis Debeve ;
Matthieu Weber ;
Nicolas Cornu ;
P4ncake ;
Phyks (Lucas Verney) ;
Raymonde Philibert ;
Roger Philibert ;
Romain Bignon ;
Sébastien Jean ;
Simon Lipp ;
Théo Dorée ;
Vincent Ardisson ;
Vincent Paredes ;
ZeHiro.

Weboob est un projet qui vit grâce à ses contributeurs. Si vous souhaitez l’améliorer et que vous connaissez le Python (ou pas, des besoins sur la documentation et la qualité des icônes se font sentir), n’hésitez pas à contribuer.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Scraping de sites web : aspects légaux

2017-09-01T22:44:00+02:00

Bonjour,

Question un peu hors sujet mais je ne savais pas trop où poster cela ;)

Les maîtresses de ma fille ont publié durant toute l'année 2016-2017 des textes et photos sur https://www.toutemonannee.com/.
A la fin de l'année, le site proposait d'acheter un livre souvenir avec une sélection des photos réalisées par les maîtresses.
C'est, je pense, le modèle économique de toutemonannee.com : le service est financé par la vente des livres.
Le fait de mettre à disposition un script permettant d'exporter l'ensemble du contenu pourrait entrer en concurrence avec leur business model.

Le site ne propose pas d'export de l'ensemble des photos et contenus dans un format ouvert.
J'ai donc développé rapidement un script (avec https://scrapy.org/) qui m'a permis d'exporter une grande partie des éléments mis en ligne (principalement les photos et les textes).
Je souhaitais mettre à disposition ce script sur github afin de permettre à d'autres de faire un export des données de leur progéniture (les CGU indiquent que le site est supprimé 3 mois après la fin d'année scolaire).

J'ai contacté toutemonannee.com afin de leur demander s'il m'autorisait à publier ce script. Leur réponse lapidaire est :
"Nous ne pouvons vous autoriser à publier ce script étant donné que nous ne sommes pas les propriétaires du contenu publié sur les blogs. Le téléchargement des photos est limité pour des raisons de droit à l'image et pour éviter que les photos des enfants se retrouvent sur Internet sans l'autorisation des parents."

Je m'interroge sur la possibilité de passer outre leur autorisation. Je me demande dans quelle mesure nous sommes soumis à https://www.legifrance.gouv.fr/affichCodeArticle.do?cidTexte=LEGITEXT000006069414&idArticle=LEGIARTI000006279235 (L335-2-1).

Mon script de scraping équivaut à ce que peut faire Cozy Cloud lorsqu'il exporte des factures, ou ce que peut faire webooob (http://weboob.org/) sur certains sites.

Qu'en pensez-vous ? Quels sont les risques encourus (mise en demeure et demande de suppression ?) ?

Merci,

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Extraction de données du web - introduction à Scrapy (journal bookmark)

2015-01-30T12:27:39+01:00

Bonjour,

Ceci est un journal bookmark.

Scrapy est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.

Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."

J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation est disponible sur Github, ainsi que les 3 exemples (dont un de crawling des news LinuxFR ;).

Voir les slides de la présentation
Voir les sources des 3 exemples

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur