Bonjour,
Je cherche à collecter les commentaires et les pièces jointes mis à disposition sur cette page d'une consultation publique : https://open.efsa.europa.eu/consultation/a0c1v00000HePrzAAF
Il y a environ 400 commentaires répartis sur 142 pages, c'est-à-dire le meilleur moyen de décourager les gens de les lire :) Non seulement il n'y a pas d'hyperlien dans le code source de la page, mais en plus, chaque fois que l'on clique sur une pièce jointe, le lien généré est différent. Je ne vois donc pas comment utiliser un outil de type wget sur ce site.
J'imagine qu'on doit pouvoir programmer un outil de type crawler pour atteindre mon objectif, mais je ne connais pas ces outils.
# Pur Javascript ?
Posté par gUI (Mastodon) . Évalué à 4. Dernière modification le 20 février 2022 à 08:49.
J'ai bien l'impression que la page est du pur Javascript :
lynx -dump https://open.efsa.europa.eu/consultation/a0c1v00000HePrzAAF
ne renvoie strictement aucun texte.La solution doit être à rechercher du côté des userscripts ?
En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
# Cookies
Posté par ted (site web personnel) . Évalué à 7. Dernière modification le 20 février 2022 à 09:29.
Ça ne va pas aider, mais leur bannière à cookies ne respecte pas le RGPD. J'ai l'impression que ce site n'a pas été pensé pour être utilisé.
Un LUG en Lorraine : https://enunclic-cappel.fr
[^] # Re: Cookies
Posté par coquecignux . Évalué à 1.
C'est d'autant plus paradoxal que l'EFSA is an agency of the European Union…
https://www.efsa.europa.eu/en/legalnotice
# La console developpeur a la rescousse
Posté par guitou . Évalué à 8.
Hello.
15 secondes pour trouver comment faire en 3 etapes:
- ouvrir la dev console du navigateur
- recharger la page de la consultation pour avoir qqch dans l'onglet reseau
- constater que la page web utilise une API JSON pour son contenu (et une autre les commentaires)
Dans l'univers Python, tu as Scrapy qui est dedie a ce genre de choses
[^] # Re: La console developpeur a la rescousse
Posté par sobriquet . Évalué à 3. Dernière modification le 20 février 2022 à 20:56.
Super, ça répond à l'essentiel de mon problème ! pour les curieux, la totalités des réponses est accessible ici en JSON :
https://open.efsa.europa.eu/api/calendar/getConsultationCommentSection?consultationId=a0c1v00000HePrzAAF&offset=0&limit=500
Pour les pièces jointes, ça a l'air un peu plus compliqué, mais ça devient faisable. Merci !
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.