Forum général.général Télécharger le contenu d'un site pas commode

Posté par  . Licence CC By‑SA.
Étiquettes : aucune
4
19
fév.
2022

Bonjour,

Je cherche à collecter les commentaires et les pièces jointes mis à disposition sur cette page d'une consultation publique : https://open.efsa.europa.eu/consultation/a0c1v00000HePrzAAF

Il y a environ 400 commentaires répartis sur 142 pages, c'est-à-dire le meilleur moyen de décourager les gens de les lire :) Non seulement il n'y a pas d'hyperlien dans le code source de la page, mais en plus, chaque fois que l'on clique sur une pièce jointe, le lien généré est différent. Je ne vois donc pas comment utiliser un outil de type wget sur ce site.

J'imagine qu'on doit pouvoir programmer un outil de type crawler pour atteindre mon objectif, mais je ne connais pas ces outils.

  • # Pur Javascript ?

    Posté par  (Mastodon) . Évalué à 4. Dernière modification le 20 février 2022 à 08:49.

    J'ai bien l'impression que la page est du pur Javascript : lynx -dump https://open.efsa.europa.eu/consultation/a0c1v00000HePrzAAF ne renvoie strictement aucun texte.

    La solution doit être à rechercher du côté des userscripts ?

    En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

  • # Cookies

    Posté par  (site web personnel) . Évalué à 7. Dernière modification le 20 février 2022 à 09:29.

    Ça ne va pas aider, mais leur bannière à cookies ne respecte pas le RGPD. J'ai l'impression que ce site n'a pas été pensé pour être utilisé.

    Un LUG en Lorraine : https://enunclic-cappel.fr

  • # La console developpeur a la rescousse

    Posté par  . Évalué à 8.

    Hello.

    15 secondes pour trouver comment faire en 3 etapes:
    - ouvrir la dev console du navigateur
    - recharger la page de la consultation pour avoir qqch dans l'onglet reseau
    - constater que la page web utilise une API JSON pour son contenu (et une autre les commentaires)

    Dans l'univers Python, tu as Scrapy qui est dedie a ce genre de choses

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.