tag:linuxfr.org,2005:/tags/scrapy/publicLinuxFr.org : les contenus étiquetés avec « scrapy »2018-11-22T23:21:14+01:00/favicon.pngtag:linuxfr.org,2005:Diary/381952018-11-06T00:50:07+01:002018-11-06T00:50:07+01:00scraplap, pour mouler offlineLicence CC By‑SA http://creativecommons.org/licenses/by-sa/4.0/deed.fr<p>Bonjour nal,</p>
<p>Je prends la plume pour présenter <strong>scraplap</strong>.</p>
<p>Cet outil n'avait pas de nom à sa création. Mais pour se présenter, un nom est bien utile.<br>
J'ai donc "inventé" le terme <em>LAP</em>, pour <em>link aggregation platform</em> ; une plateforme qui agrège des liens vers du contenu sur un sujet plus ou moins large et qui permet bien souvent de les noter et les commenter. On peut penser à Reddit, à Lobsters, à Journal du hacker.<br>
<em>Scrap</em> est quant à lui le diminutif de <em>scrapy</em>, la <a href="https://scrapy.org/">bibliothèque python</a> que j'utilise pour faire le <a href="https://fr.wikipedia.org/wiki/Web_scraping">scraping</a>.</p>
<p><strong>Scraplap</strong> s'inscrit dans la mouvance <em><a href="http://weboob.org/">weboob</a></em>, qui consiste à permettre des usages web hors navigateur (gérer sa banque, faire des rencontres, etc.). Pour ma part je suis intéressé par l'usage <em>contentoob</em> : consulter du contenu produit pour le web hors du navigateur. Dans ce domaine, les formats rss/atom et epub sont très utiles pour proposer du contenu sans passer par le navigateur. Ils permettent de ne pas avoir à développer d'application cliente spécifique ; une tâche trop ardue à mon goût. Il y a de très bon <a href="https://en.wikipedia.org/wiki/Comparison_of_feed_aggregators">lecteurs RSS</a>, sur toutes les plateformes.</p>
<p>Une LAP comme <a href="https://lobste.rs/">Lobsters</a> propose déjà un <a href="https://lobste.rs/rss">fil d'actualités</a> en RSS. Cependant, ils ne s'autorisent pas à y inclure du contenu qui n'est pas produit par la plateforme. On y retrouve donc que les liens vers les articles, pas les articles eux-mêmes. Or c'est typiquement là que je souhaite du contentoob. Je ne souhaite pas sortir du lecteur de fils et devoir être en ligne pour lire l'article. Scraplap fait ce travail pour moi. Il parcourt le fil d'actualité de la LAP, va chercher les articles en ligne et les remets dans un nouveau flux.</p>
<p><img src="//img.linuxfr.org/img/68747470733a2f2f6672616d617069632e6f72672f4e665935476139586f7346722f687768677a4f697845376d78/hwhgzOixE7mx" alt="fil d'actu" title="Source : https://framapic.org/NfY5Ga9XosFr/hwhgzOixE7mx"></p>
<p>Pour que les articles soient lisibles dans le lecteur de fils d'actu, l'outil applique le même algorithme que le <a href="https://github.com/mozilla/readability">mode lecteur de Firefox</a>, grâce à une <a href="https://pypi.org/project/readability-lxml/">implémentation python</a> basée sur lxml. Ce mécanisme mériterai un article à part entière.</p>
<p><img src="//img.linuxfr.org/img/68747470733a2f2f6672616d617069632e6f72672f7071485a566344567478714d2f31554b4d4c4c5a587236434b/1UKMLLZXr6CK" alt="article" title="Source : https://framapic.org/pqHZVcDVtxqM/1UKMLLZXr6CK"></p>
<p><strong>Scraplap</strong> a connu deux releases. La première, très intimiste, était stateless, elle lisait le fil source et produisait le fil résultat en même temps. Cela posait plein de problèmes qui sont expliqués dans <a href="https://framagit.org/setop/scraplap/blob/master/DESIGN.md">ce document de design</a> ; désolé, c'est en anglais. La release actuelle est statefull, elle récupère les nouveaux articles, les stocke en DB, puis construit le fil résultat.</p>
<p>Le code est <a href="https://framagit.org/setop/scraplap">disponible</a> sur Framagit, l'instance gitlab de Framasoft. J'en ai profité pour mettre en place un don récurent car je veux soutenir leur initiative de dégafamisation. Les fils d’actu sont disponibles sur mon hosting, pour <a href="http://www.zoocoop.com/contentoob/lobsters.atom">lobsters</a> et pour <a href="http://www.zoocoop.com/contentoob/journalduhacker.atom">journalduhacker</a>.</p>
<p>Si ce type d'outils vous intéresse, vous pouvez alimenter la backlog, faire des PR, commenter.</p>
<div><a href="https://linuxfr.org/users/steph1978/journaux/scraplap-pour-mouler-offline.epub">Télécharger ce contenu au format EPUB</a></div> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/115648/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/users/steph1978/journaux/scraplap-pour-mouler-offline#comments">ouvrir dans le navigateur</a>
</p>
steph1978https://linuxfr.org/nodes/115648/comments.atomtag:linuxfr.org,2005:News/382062017-09-21T14:56:02+02:002017-09-24T03:38:03+02:00Weboob sort une nouvelle version qui va vous porter chanceLicence CC By‑SA http://creativecommons.org/licenses/by-sa/4.0/deed.fr<div><p><a href="http://weboob.org">Weboob</a> (<em>Web Outside Of Browsers</em>) est un ensemble d’applications et de modules interagissant avec des sites Web.</p>
<p>Ce projet peut également être utilisé comme une bibliothèque permettant de grandement simplifier l’extraction de données des sites Web. Pour du prêt à l’emploi, Weboob compte aujourd’hui 241 <a href="http://weboob.org/modules">modules</a> qui permettent d’accéder à de nombreux sites Web sans passer par un navigateur standard.</p>
<p>Sans être exhaustive, la suite de la dépêche vous propose de découvrir quelques nouveautés de la nouvelle version 1.3, sortie mercredi 20 septembre 2017, que ce soit pour les utilisateurs et utilisatrices ou les développeuses et développeurs. Nous détaillons également la vie du projet en fin de dépêche, notamment notre participation à la <a href="//linuxfr.org/news/programme-de-la-pyconfr-2017"><em>PyConFr</em> du 21 au 24 septembre 2017</a>.</p></div><ul><li>lien nᵒ 1 : <a title="http://weboob.org" hreflang="en" href="https://linuxfr.org/redirect/100652">Site Web</a></li><li>lien nᵒ 2 : <a title="http://weboob.org/news" hreflang="en" href="https://linuxfr.org/redirect/100653">Liste complète des changements</a></li><li>lien nᵒ 3 : <a title="http://weboob.org/install" hreflang="en" href="https://linuxfr.org/redirect/100654">Installation</a></li><li>lien nᵒ 4 : <a title="http://weboob.org/modules" hreflang="en" href="https://linuxfr.org/redirect/100655">Modules</a></li><li>lien nᵒ 5 : <a title="http://weboob.org/applications/" hreflang="en" href="https://linuxfr.org/redirect/100656">Applications</a></li><li>lien nᵒ 6 : <a title="https://git.weboob.org/weboob/devel" hreflang="en" href="https://linuxfr.org/redirect/100657">Code sur le GitLab du projet</a></li><li>lien nᵒ 7 : <a title="https://linuxfr.org/news/programme-de-la-pyconfr-2017" hreflang="fr" href="https://linuxfr.org/redirect/100658">Dépêche sur la PyConFr 2017</a></li></ul><div><h2 class="sommaire">Sommaire</h2>
<ul class="toc">
<li>
<a href="#services-bancaires-et-administratifs">Services bancaires et administratifs</a><ul>
<li><a href="#ajout-de-b%C3%A9n%C3%A9ficiaire-pour-les-virements">Ajout de bénéficiaire pour les virements</a></li>
<li><a href="#nouveaux-modules">Nouveaux modules</a></li>
</ul>
</li>
<li><a href="#logements">Logements</a></li>
<li><a href="#vie-priv%C3%A9e-et---auto-update">Vie privée et --auto-update</a></li>
<li><a href="#nouvelle-application-qgalleroob">Nouvelle application QGalleroob</a></li>
<li>
<a href="#dans-les-entrailles-du-d%C3%A9veloppement">Dans les entrailles du développement</a><ul>
<li><a href="#prise-en-charge-des-versions-de-python">Prise en charge des versions de Python</a></li>
<li><a href="#nouveaux-filtres">Nouveaux filtres</a></li>
<li><a href="#outils-de-d%C3%A9bogage">Outils de débogage</a></li>
</ul>
</li>
<li><a href="#liste-exhaustive-des-nouveaux-modules">Liste exhaustive des nouveaux modules</a></li>
<li>
<a href="#communaut%C3%A9">Communauté</a><ul>
<li><a href="#derni%C3%A8re-assembl%C3%A9e-g%C3%A9n%C3%A9rale">Dernière assemblée générale</a></li>
<li><a href="#pyconfr2017">PyConFr 2017</a></li>
</ul>
</li>
<li><a href="#contributeurs">Contributeurs</a></li>
</ul><h2 id="services-bancaires-et-administratifs">Services bancaires et administratifs</h2>
<h3 id="ajout-de-bénéficiaire-pour-les-virements">Ajout de bénéficiaire pour les virements</h3>
<p>Le système de virement avait été revu lors de la précédente version, afin de permettre un processus plus complet notamment lors de la demande d’informations complémentaires (exemple : un code envoyé par SMS). Nous franchissons une nouvelle étape dans la prise en charge de ces virements en permettant désormais l’ajout de bénéficiaires pour les virements (grâce à la sous‐capacité <code>CapBankTransferAddRecipient</code>). Si le site utilise un code unique par SMS, <em>boobank</em> le demandera pour finaliser l’ajout de la même manière que pour les virements. Neuf modules ont déjà cette fonctionnalité activée.</p>
<h3 id="nouveaux-modules">Nouveaux modules</h3>
<p>Les modules bancaires sont de nouveau à la pointe grâce au soutien de l’entreprise <a href="https://www.budget-insight.com/">Budget Insight</a> qui utilise et contribue massivement à Weboob. On compte ainsi dix nouveaux modules bancaires et la liste des changements sur les modules existants est assez impressionnante.</p>
<p>Les modules qui permettent de simplifier la gestion administrative au quotidien ne sont pas en reste. On peut noter le téléchargement des fiches de paie pour tous les fonctionnaires d’état via le module <a href="https://ensap.gouv.fr/web/accueilnonconnecte">ENSAP</a>, ainsi que le téléchargement des factures du fournisseur de gaz Lampiris. N’oublions pas, pour les Parisiens, la gestion des réservations de livres dans les bibliothèques (module <em>bibliothequesparis</em>). On regrettera en revanche la disparition du module pour les bibliothèques rennaises, qui n’était plus maintenu.</p>
<h2 id="logements">Logements</h2>
<p>Il est très difficile de chercher un logement en zone densément peuplée. Les offres sont très nombreuses, souvent dupliquées sur plusieurs sites. Le travail de veille est lourd et les logements partent très vite. C’est ainsi qu’un contributeur a développé <a href="https://git.phyks.me/Phyks/flatisfy">Flatisfy</a>, en utilisant les modules immobiliers de Weboob comme <em>backend</em>. L’objectif de cette application est de vous permettre de spécifier des filtres pour votre recherche de logements (secteur, loyer, nombre de pièces, temps de trajet), puis d’offrir une interface conviviale autour de ces résultats, en groupant les doublons et en affichant tous les résultats de façon uniforme, quel que soit le site d’origine de l’annonce. Flatisfy a été testé et approuvé à Lyon et Paris pour l’instant. Pour plus d’informations, vous pouvez regarder <a href="https://phyks.me/2017/08/looking-for-a-flat-the-modern-way.html#looking-for-a-flat-the-modern-way">cet article de l’auteur</a>.</p>
<p>Le développement de Flatisfy a été l’occasion de tester et mettre à jour les modules de recherche de logements. Outre les corrections de bogues sur les modules existants, les principaux changements sont :</p>
<ul>
<li>l’ajout d’un module pour récupérer les annonces de Foncia ;</li>
<li>l’homogénéisation des résultats retournés par les divers modules, afin que les numéros de téléphone soient formatés de façon similaire, et que toutes les informations disponibles soient bien récupérées ;</li>
<li>l’ajout d’un nouveau champ <code>utilities</code> sur les <code>Housing</code>, afin de mentionner si les charges sont incluses ou non dans le loyer récupéré par le module ;</li>
<li>l’ajout de deux nouveaux champs <code>rooms</code> et <code>bedrooms</code> sur <code>Housing</code>, afin d’avoir une façon homogène entre les modules de représenter le nombre de pièces et de chambres du bien.</li>
</ul><h2 id="vie-privée-et---auto-update">Vie privée et --auto-update</h2>
<p>Par défaut, les applications Weboob vérifiaient automatiquement les mises à jour des modules quand un module rencontrait une erreur. C’est très pratique dans un projet comme Weboob qui est face à des sites volatiles, mais a des conséquences négatives en termes de respect de la vie privée. Un utilisateur a ouvert un <a href="https://git.weboob.org/weboob/devel/issues/8">ticket avec un argumentaire détaillé</a> et nous avons pris en compte ses remarques. La mise à jour automatique est donc désormais optionnelle, désactivée par défaut et peut être réactivée à l’aide de <code>--auto-update</code>.</p>
<p>Rappelons qu’il est dans tous les cas toujours possible de rechercher des mises à jour manuellement avec <code>weboob update</code>.</p>
<h2 id="nouvelle-application-qgalleroob">Nouvelle application QGalleroob</h2>
<p>Une nouvelle application Qt permet de faire des recherches d’images et de galeries : QGalleroob.<br><img src="//img.linuxfr.org/img/68747470733a2f2f6c75742e696d2f344a694848654b626f502f326958336e7436346a6a684c38723056/2iX3nt64jjhL8r0V" alt="Screenshot QGalleroob" title="Source : https://lut.im/4JiHHeKboP/2iX3nt64jjhL8r0V"></p>
<h2 id="dans-les-entrailles-du-développement">Dans les entrailles du développement</h2>
<h3 id="prise-en-charge-des-versions-de-python">Prise en charge des versions de Python</h3>
<p>Le cœur de Weboob ainsi que les applications Weboob sont maintenant compatibles Python 2.7 et Python 3.<br>
De nombreux modules sont déjà compatibles Python 2 et Python 3, et de nouveaux seront portés au fur et à mesure. Les modules n’étant toujours pas compatibles sont dans une grande majorité des modules abandonnés, dont le fonctionnement est probablement douteux. Ils seront donc probablement supprimés dans les prochaines versions.</p>
<p>En fonction des retours sur Python 3 et de l’avancée du portage, il ne restera plus qu’une ou deux versions de Weboob qui prendront encore en charge Python 2.7. Nous prévoyons de changer de numéro majeur de version (et de passer donc à Weboob 2.0) au cours de l’année 2018, et donc à une version qui n’aura plus Python 2.7.</p>
<h3 id="nouveaux-filtres">Nouveaux filtres</h3>
<p>Les filtres sont des aides essentiels dans les modules Weboob, ils permettent notamment de simplifier l’extraction des données en utilisant une syntaxe très déclarative (il y a beaucoup de magie dedans). De nouveaux filtres spécialisés font leur apparition dans cette version :</p>
<ul>
<li>
<strong>AbsoluteLink</strong> : construit une adresse URL absolue à partir d’un lien HTML (contrairement au filtre <em>Link</em> qui retourne la valeur brute) ;</li>
<li>
<strong>FormValue</strong> : permet d’obtenir la valeur courante d’un élément de formulaire (par exemple dans un tag <em>select</em>) ;</li>
<li>
<strong>HasElement</strong> : retourne une valeur suivant la présence ou non d’un élément HTML ;</li>
<li>
<strong>QueryValue</strong> : retourne la valeur d’un paramètre contenu dans la partie <em>query</em> d’une URL (par exemple, <em>value</em> pour <code>url?param=value</code>).</li>
</ul><h3 id="outils-de-débogage">Outils de débogage</h3>
<p>Deux nouveaux mécanismes ont été ajoutés pour aider à trouver les problèmes quand on écrit un module.</p>
<p>Dans une session de débogage avec <em>pdb</em> (ou temporairement dans le code d’un module) :</p>
<pre><code class="python"><span class="o">>>></span> <span class="kn">import</span> <span class="nn">weboob</span>
<span class="o">>>></span> <span class="n">weboob</span><span class="o">.</span><span class="n">browser</span><span class="o">.</span><span class="n">elements</span><span class="o">.</span><span class="n">magic_highlight</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">el</span><span class="o">.</span><span class="n">xpath</span><span class="p">(</span><span class="s1">'.//div[has-class("foo")]'</span><span class="p">))</span></code></pre>
<p>Cela ouvrira la page courante dans un navigateur pour déboguer, avec tous les éléments correspondants à l’expression XPath, mis en surbrillance. Il est possible de mettre également en surbrillance toutes les zones d’une page qui sont extraites par le module. Pour cela, il faut ajouter <code>_highlight_el = 1</code> à la configuration du module que l’on veut déboguer.</p>
<p>Un autre outil très pratique est l’exportation de sessions et son chargement via une extension Web dans Firefox ou chrome. Dans le dossier <code>contrib</code>, un dossier complet nommé <code>webextension-session-importer</code> permet cette performance (voir le fichier <code>README</code> pour plus de détails).</p>
<h2 id="liste-exhaustive-des-nouveaux-modules">Liste exhaustive des nouveaux modules</h2>
<ul>
<li>bibliothequesparis (CapBook) ;</li>
<li>billetreduc (CapCalendarEvent) ;</li>
<li>blogspot (CapMessages) ;</li>
<li>bnppere (CapBank) ;</li>
<li>btpbanque (CapBank) ;</li>
<li>capeasi (CapBank) ;</li>
<li>cices (CapBank) ;</li>
<li>cityscoot (CapDocument) ;</li>
<li>cmes (CapBank) ;</li>
<li>cmmc (CapBank, CapContact) ;</li>
<li>ensap (CapDocument) ;</li>
<li>erehsbc (CapBank) ;</li>
<li>esalia (CapBank) ;</li>
<li>foncia (CapHousing) ;</li>
<li>lameteoagricole (CapWeather) ;</li>
<li>lampiris (CapDocument) ;</li>
<li>larousse (CapTranslate) ;</li>
<li>linebourse (CapBank) ;</li>
<li>myfoncia (CapDocument) ;</li>
<li>pixabay (CapFile, CapImage) ;</li>
<li>pradoepargne (CapBank) ;</li>
<li>tumblr (CapGallery) ;</li>
<li>zerobin (CapPaste).</li>
</ul><h2 id="communauté">Communauté</h2>
<h3 id="dernière-assemblée-générale">Dernière assemblée générale</h3>
<p>Le projet Weboob est protégé par une association qui a pour but de soutenir le développement et de permettre l’indépendance du projet par rapport à des entreprises qui peuvent être très contributrices (on les en remercie beaucoup). Si cette association n’est pas toujours très active, nous avons réuni une assemblée générale le 10 juillet 2017 à Paris. Le bureau de l’association (qui nomme notamment le <em>release manager</em>, ayant le pouvoir d’accepter ou refuser des contributions) a été entièrement reconduit.</p>
<p>Les membres du bureau sont cependant tous investis depuis longtemps dans le projet et seraient très volontiers prêts à céder leurs places à de nouveaux contributeurs ou contributrices.</p>
<h3 id="pyconfr2017">PyConFr 2017</h3>
<p>Les développeurs Weboob seront présents en force à cette édition de <a href="//linuxfr.org/news/programme-de-la-pyconfr-2017"><em>PyConFr</em></a> ! L’ensemble des membres du bureau de l’association sera notamment présent.</p>
<p>Un <a href="https://www.pycon.fr/2017/programme.html#atelier-presentation-weboob">atelier</a> sera animé le samedi 23 septembre 2017 de 14 h à 16 h, ce sera l’occasion de développer votre premier module. Deux conférences seront présentées le dimanche 24 septembre 2017 de 15 h à 16 h :</p>
<ul>
<li>
<a href="https://www.pycon.fr/2017/programme.html#weboob-le-navigatueur"><em>Weboob, le navigatueur</em></a> ;</li>
<li>
<a href="https://www.pycon.fr/2017/programme.html#la-puissance-du-scraping-web-avec-weboob"><em>La puissance du scraping Web avec Weboob</em></a>.</li>
</ul><p>N’hésitez pas à passer nous voir, poser des questions, faire vos premières contributions, discuter de l’avenir du projet, etc.</p>
<h2 id="contributeurs">Contributeurs</h2>
<p>Merci aux contributeurs qui ont participé à cette version :</p>
<ul>
<li>Baptiste Delpey ;</li>
<li>Barthélemy Gouby ;</li>
<li>Benjamin Bouvier ;</li>
<li>Benjamin Carton ;</li>
<li>Benjamin Tampigny ;</li>
<li>Christophe Lampin ;</li>
<li>David Kremer ;</li>
<li>Edouard Lambert ;</li>
<li>Florent Fourcot ;</li>
<li>Florian ;</li>
<li>Florian Duguet ;</li>
<li>François Revol ;</li>
<li>Frédéric Lépy ;</li>
<li>Guillaume Lundy ;</li>
<li>Guillaume Seznec ;</li>
<li>James Galt ;</li>
<li>Jean Walrave ;</li>
<li>Jonathan Schmidt ;</li>
<li>Juliette Fourcot ;</li>
<li>Laurent Bachelier ;</li>
<li>Louis Debeve ;</li>
<li>Matthieu Weber ;</li>
<li>Nicolas Cornu ;</li>
<li>
<em>P4ncake</em> ;</li>
<li>
<em>Phyks</em> (Lucas Verney) ;</li>
<li>Raymonde Philibert ;</li>
<li>Roger Philibert ;</li>
<li>Romain Bignon ;</li>
<li>Sébastien Jean ;</li>
<li>Simon Lipp ;</li>
<li>Théo Dorée ;</li>
<li>Vincent Ardisson ;</li>
<li>Vincent Paredes ;</li>
<li>
<em>ZeHiro</em>.</li>
</ul><p><a href="http://weboob.org">Weboob</a> est un projet qui vit grâce à ses <a href="http://weboob.org/#authors">contributeurs</a>. Si vous souhaitez l’améliorer et que vous connaissez le Python (ou pas, des besoins sur la documentation et la qualité des icônes se font sentir), n’hésitez pas à <a href="http://dev.weboob.org/guides/contribute">contribuer</a>.</p></div><div><a href="https://linuxfr.org/news/weboob-sort-une-nouvelle-version-qui-va-vous-porter-chance.epub">Télécharger ce contenu au format EPUB</a></div> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/112708/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/news/weboob-sort-une-nouvelle-version-qui-va-vous-porter-chance#comments">ouvrir dans le navigateur</a>
</p>
Florent FourcotZeroHeureDavy DefaudBenoît Sibaudhttps://linuxfr.org/nodes/112708/comments.atomtag:linuxfr.org,2005:Post/384462017-09-01T22:44:00+02:002017-09-01T22:44:00+02:00Scraping de sites web : aspects légaux<p>Bonjour,</p>
<p>Question un peu hors sujet mais je ne savais pas trop où poster cela ;)</p>
<p>Les maîtresses de ma fille ont publié durant toute l'année 2016-2017 des textes et photos sur <a href="https://www.toutemonannee.com/">https://www.toutemonannee.com/</a>.<br>
A la fin de l'année, le site proposait d'acheter un livre souvenir avec une sélection des photos réalisées par les maîtresses.<br>
C'est, je pense, le modèle économique de toutemonannee.com : le service est financé par la vente des livres.<br>
Le fait de mettre à disposition un script permettant d'exporter l'ensemble du contenu pourrait entrer en concurrence avec leur business model.</p>
<p>Le site ne propose pas d'export de l'ensemble des photos et contenus dans un format ouvert.<br>
J'ai donc développé rapidement un script (avec <a href="https://scrapy.org/">https://scrapy.org/</a>) qui m'a permis d'exporter une grande partie des éléments mis en ligne (principalement les photos et les textes).<br>
Je souhaitais mettre à disposition ce script sur github afin de permettre à d'autres de faire un export des données de leur progéniture (les CGU indiquent que le site est supprimé 3 mois après la fin d'année scolaire).</p>
<p>J'ai contacté toutemonannee.com afin de leur demander s'il m'autorisait à publier ce script. Leur réponse lapidaire est : <br>
"Nous ne pouvons vous autoriser à publier ce script étant donné que nous ne sommes pas les propriétaires du contenu publié sur les blogs. Le téléchargement des photos est limité pour des raisons de droit à l'image et pour éviter que les photos des enfants se retrouvent sur Internet sans l'autorisation des parents."</p>
<p>Je m'interroge sur la possibilité de passer outre leur autorisation. Je me demande dans quelle mesure nous sommes soumis à <a href="https://www.legifrance.gouv.fr/affichCodeArticle.do?cidTexte=LEGITEXT000006069414&idArticle=LEGIARTI000006279235">https://www.legifrance.gouv.fr/affichCodeArticle.do?cidTexte=LEGITEXT000006069414&idArticle=LEGIARTI000006279235</a> (L335-2-1).</p>
<p>Mon script de scraping équivaut à ce que peut faire Cozy Cloud lorsqu'il exporte des factures, ou ce que peut faire webooob (<a href="http://weboob.org/">http://weboob.org/</a>) sur certains sites.</p>
<p>Qu'en pensez-vous ? Quels sont les risques encourus (mise en demeure et demande de suppression ?) ? </p>
<p>Merci,</p><div><a href="https://linuxfr.org/forums/general-hors-sujets/posts/scraping-de-sites-web-aspects-legaux.epub">Télécharger ce contenu au format EPUB</a></div> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/112583/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/forums/general-hors-sujets/posts/scraping-de-sites-web-aspects-legaux#comments">ouvrir dans le navigateur</a>
</p>
franekhttps://linuxfr.org/nodes/112583/comments.atomtag:linuxfr.org,2005:Diary/355732015-01-30T12:27:39+01:002015-01-30T12:27:39+01:00Extraction de données du web - introduction à Scrapy (journal bookmark)Licence CC By‑SA http://creativecommons.org/licenses/by-sa/4.0/deed.fr<p>Bonjour,</p>
<p>Ceci est un journal bookmark.</p>
<p><a href="http://www.scrapy.org">Scrapy</a> est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.</p>
<p>Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."</p>
<p>J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation est disponible sur Github, ainsi que les 3 exemples (dont un de crawling des news LinuxFR ;).</p>
<ul>
<li>Voir les <a href="http://lebouquetin.github.io/scrapy-presentation-pyuggre-01-2015/">slides de la présentation</a>
</li>
<li>Voir <a href="https://github.com/lebouquetin/lebouquetin.github.io/tree/master/scrapy-presentation-pyuggre-01-2015">les sources des 3 exemples</a>
</li>
</ul><div><a href="https://linuxfr.org/users/lebouquetin/journaux/extraction-de-donnees-du-web-introduction-a-scrapy-journal-bookmark.epub">Télécharger ce contenu au format EPUB</a></div> <p>
<strong>Commentaires :</strong>
<a href="//linuxfr.org/nodes/104654/comments.atom">voir le flux Atom</a>
<a href="https://linuxfr.org/users/lebouquetin/journaux/extraction-de-donnees-du-web-introduction-a-scrapy-journal-bookmark#comments">ouvrir dans le navigateur</a>
</p>
LeBouquetinhttps://linuxfr.org/nodes/104654/comments.atom