Forum Linux.général Copie d'une page WEB dans un fichier

Posté par  . Licence CC By‑SA.
Étiquettes : aucune
-1
2
avr.
2021

Bonjour,

Je cherche comment copier une page WEB dans un fichier: je ne veux pas du code HTML, seulement ce que la page affiche.

Ceci afin de superviser avec NAGIOS.

Le problème est que l'URL est en HTTPS et contient du code JAVASCRIPT.

J'ai essayé avec wget, w3m, lynx et elinks mais je récupère toujours le code HTML alors que ce qui est affiché sur la page WEB est bien différent.

Comment je fais pour copier une image dans ce message, afin de vous montrer (ce sera plus parlant) ?

Je récupère du code HTML, alors que sur la page WEB j'ai une liste de processus avec un état à "OK" ou "NOT OK":

Merci pour votre retour.

  • # PDF

    Posté par  . Évalué à 1.

    Une impression en PDF ?

  • # Lynx

    Posté par  . Évalué à 2.

    Y'a ça: https://totheweb.com
    Mais sinon tu dois pouvoir faire ça avec le navigateur Lynx et des redirections.

  • # cURL ?

    Posté par  . Évalué à 0. Dernière modification le 03 avril 2021 à 02:07.

    Hello YELLOWDOG,

    Je ne connais pas trop ce domaine mais je me demande si cURL ne saurait pas faire ça ?

    Julien_c'est_bien (y'a pas que Seb)

  • # Peut etre wkhtml2pdf

    Posté par  (site web personnel) . Évalué à 2.

    Voir s'il est capable de te sortir l'ensemble du contenu.
    En tout cas c'est le seul qui m'avait permis de proprement exporter des pages en pdf.

    Python 3 - Apprendre à programmer dans l'écosystème Python → https://www.dunod.com/EAN/9782100809141

  • # Image png

    Posté par  . Évalué à 1.

    Firefox permet de faire une capture d'écran dans un fichier png, soit une zone soit la page complète, que ce soit en mode normal ou en mode lecture.

    C'est au bout de la barre d'adresse les trois petits points / Effectuer une capture d'écran.

  • # HTML => Markdown ?

    Posté par  . Évalué à 1.

    et faire une conversion du HTML ?

  • # code HTML = page web

    Posté par  (site web personnel, Mastodon) . Évalué à 6.

    Comment je fais pour copier une image dans ce message, afin de vous montrer (ce sera plus parlant) ?

    Il te faut téléverser l'image quelque part, d'ouvert, et faire un lien ici (cf. formatage markdown si tu veux que ce lien soit interprété)

    Je récupère du code HTML, alors que sur la page WEB j'ai une liste de processus avec un état à "OK" ou "NOT OK":

    Alors, il y a une petite incompréhension si je peux me permettre. Quand tu pointes ton navigateur sur la page web, tu récupère du code HTML qui est « rendu » par ton navigateur ; c'est à dire interprété et l'affichage correspond généré…

    J'ai essayé avec wget, w3m, lynx et elinks mais je récupère toujours le code HTML alors que ce qui est affiché sur la page WEB est bien différent.

    Des outils comme wget ou curl ou httpie récupèrent bien la page web demandée, comme le ferait ton navigateur justement. Mais ils s'arrêtent là, et on le même résultat que lorsqu'on demande au navigateur d'enregistrer la page…
    Des outils comme lynx ou w3m ou elinks récupèrent la page aussi, puis font l'interprétation du balisage (alias le code HTML), donc font le rendu. Du moins en mode intéractif… (Je ne sais plus pour les autres, mais Lynx ne fait pas le rendu quand on ne l'utilisable pas interactivement car on est en mode récupération brute pour enregistrer la page dans un fichier… sauf si tu utilises l'option -dump pour plutôt récupérer le rendu…)
    Par contre attention :

    contient du code JAVASCRIPT.

    Tous les navigateurs n'interprètent pas le JS (et une page bien conçue doit bien dégrader, i.e. ne pas perdre d'information quand le client n'a pas de JS) C'est le cas en général des navigateurs en console (quoique Links2 et ELinks dans une certaine mesure, mais c'est un service minimum) et certains navigateurs graphiques aussi (cas de Dillo par exemple.) Et pour les fureteurs qui savent exécuter des scripts JS, ils ne sont pas égaux (et l'utilisateur peut désactiver la fonctionnalité) Pour utiliser ces dernier navigateurs en ligne de commande non interactivement, il faut regarder du côté de leur version sans tête : option -headless pour Firefox, installation spécifique pour Chrome, et d'autres…)

    Ceci afin de superviser avec NAGIOS.

    Il existe une extension complète avec plein d'exemples d'utilisation sur la toile. So KISS

    “It is seldom that liberty of any kind is lost all at once.” ― David Hume

  • # nags, supervision et page web

    Posté par  . Évalué à 2.

    1°) il doit y avoir des plugins tout pret, qui permettent par exemple de chercher une chaine de caractère dans la page attendu

    2°) Je cherche comment copier une page WEB dans un fichier: je ne veux pas du code HTML, seulement ce que la page affiche. Ceci afin de superviser avec NAGIOS.
    tu veux une "photo" de la page web, que tu vas analyser avec de la reconnaissance d'image ?
    ou tu veux le contenu de la page web dans un fichier, pour analyser le contenu ensuite ?

    dans le 2e cas, wget -O fichier_de_sortie http://tonsite.example.tld/tapage doit stocker ta page reçue dans fichier_de_sortie,
    ensuite tu l'analyse avec tes scripts.

  • # api

    Posté par  (Mastodon) . Évalué à 2.

    Les dernières versions n'ont pas d'accès via une API rest? C'est le mode d'utilisation que je privilégierait pour récupérer le états et éventuellement les afficher de nouveau à ma sauce.

  • # Voir dans les outils de test de sites web

    Posté par  . Évalué à 2.

    Les outils de test web sont tes amis, je pense.

    Par exemple Selenium ou Puppeteer.

  • # Hum

    Posté par  . Évalué à 1.

    Je n'ai pas tout compris mais j'utilise souvent deux extensions Firefox :
    SingleFile https://addons.mozilla.org/fr/firefox/addon/single-file/ et SingleFileZ https://addons.mozilla.org/fr/firefox/addon/singlefilez/

    et en ligne de commande : monolith https://github.com/Y2Z/monolith

    arnauld

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.