Forum Linux.général Copie d'une page WEB dans un fichier

Posté par YELLOWDOG le 02 avril 2021 à 15:48. Licence CC By‑SA.

Étiquettes : aucune

-1

avr.

2021

Bonjour,

Je cherche comment copier une page WEB dans un fichier: je ne veux pas du code HTML, seulement ce que la page affiche.

Ceci afin de superviser avec NAGIOS.

Le problème est que l'URL est en HTTPS et contient du code JAVASCRIPT.

J'ai essayé avec wget, w3m, lynx et elinks mais je récupère toujours le code HTML alors que ce qui est affiché sur la page WEB est bien différent.

Comment je fais pour copier une image dans ce message, afin de vous montrer (ce sera plus parlant) ?

Je récupère du code HTML, alors que sur la page WEB j'ai une liste de processus avec un état à "OK" ou "NOT OK":

Merci pour votre retour.

# PDF

Posté par David le 02 avril 2021 à 18:21. Évalué à 1.

Une impression en PDF ?
# Lynx

Posté par Graveen le 02 avril 2021 à 18:48. Évalué à 2.

Y'a ça: https://totheweb.com
Mais sinon tu dois pouvoir faire ça avec le navigateur Lynx et des redirections.
# cURL ?

Posté par Julien_J06 le 03 avril 2021 à 02:07. Évalué à 0. Dernière modification le 03 avril 2021 à 02:07.

Hello YELLOWDOG,

Je ne connais pas trop ce domaine mais je me demande si cURL ne saurait pas faire ça ?

Julien_c'est_bien (y'a pas que Seb)
# Peut etre wkhtml2pdf

Posté par lolop (site web personnel) le 03 avril 2021 à 08:21. Évalué à 2.

Voir s'il est capable de te sortir l'ensemble du contenu.
En tout cas c'est le seul qui m'avait permis de proprement exporter des pages en pdf.

Votez les 30 juin et 7 juillet, en connaissance de cause. http://www.pointal.net/VotesDeputesRN
- [^] # Re: Peut etre wkhtml2pdf
  
  Posté par YELLOWDOG le 12 avril 2021 à 14:44. Évalué à 1.
  
  Salut,
  
  Merci pour ta réponse, ça fonctionne bien avec wkhtmltopdf puis pdftotext
# Image png

Posté par remico le 03 avril 2021 à 10:29. Évalué à 1.

Firefox permet de faire une capture d'écran dans un fichier png, soit une zone soit la page complète, que ce soit en mode normal ou en mode lecture.

C'est au bout de la barre d'adresse les trois petits points / Effectuer une capture d'écran.
# HTML => Markdown ?

Posté par olive12 le 03 avril 2021 à 11:04. Évalué à 1.

et faire une conversion du HTML ?
# code HTML = page web

Posté par Gil Cot ✔ (site web personnel, Mastodon) le 03 avril 2021 à 13:23. Évalué à 6.

Comment je fais pour copier une image dans ce message, afin de vous montrer (ce sera plus parlant) ?

Il te faut téléverser l'image quelque part, d'ouvert, et faire un lien ici (cf. formatage markdown si tu veux que ce lien soit interprété)

Je récupère du code HTML, alors que sur la page WEB j'ai une liste de processus avec un état à "OK" ou "NOT OK":

Alors, il y a une petite incompréhension si je peux me permettre. Quand tu pointes ton navigateur sur la page web, tu récupère du code HTML qui est « rendu » par ton navigateur ; c'est à dire interprété et l'affichage correspond généré…

J'ai essayé avec wget, w3m, lynx et elinks mais je récupère toujours le code HTML alors que ce qui est affiché sur la page WEB est bien différent.

Des outils comme wget ou curl ou httpie récupèrent bien la page web demandée, comme le ferait ton navigateur justement. Mais ils s'arrêtent là, et on le même résultat que lorsqu'on demande au navigateur d'enregistrer la page…
Des outils comme lynx ou w3m ou elinks récupèrent la page aussi, puis font l'interprétation du balisage (alias le code HTML), donc font le rendu. Du moins en mode intéractif… (Je ne sais plus pour les autres, mais Lynx ne fait pas le rendu quand on ne l'utilisable pas interactivement car on est en mode récupération brute pour enregistrer la page dans un fichier… sauf si tu utilises l'option -dump pour plutôt récupérer le rendu…)
Par contre attention :

contient du code JAVASCRIPT.

Tous les navigateurs n'interprètent pas le JS (et une page bien conçue doit bien dégrader, i.e. ne pas perdre d'information quand le client n'a pas de JS) C'est le cas en général des navigateurs en console (quoique Links2 et ELinks dans une certaine mesure, mais c'est un service minimum) et certains navigateurs graphiques aussi (cas de Dillo par exemple.) Et pour les fureteurs qui savent exécuter des scripts JS, ils ne sont pas égaux (et l'utilisateur peut désactiver la fonctionnalité) Pour utiliser ces dernier navigateurs en ligne de commande non interactivement, il faut regarder du côté de leur version sans tête : option -headless pour Firefox, installation spécifique pour Chrome, et d'autres…)

Ceci afin de superviser avec NAGIOS.

Il existe une extension complète avec plein d'exemples d'utilisation sur la toile. So KISS

“It is seldom that liberty of any kind is lost all at once.” ― David Hume
# nags, supervision et page web

Posté par NeoX le 04 avril 2021 à 18:27. Évalué à 2.

1°) il doit y avoir des plugins tout pret, qui permettent par exemple de chercher une chaine de caractère dans la page attendu

2°) Je cherche comment copier une page WEB dans un fichier: je ne veux pas du code HTML, seulement ce que la page affiche. Ceci afin de superviser avec NAGIOS.
tu veux une "photo" de la page web, que tu vas analyser avec de la reconnaissance d'image ?
ou tu veux le contenu de la page web dans un fichier, pour analyser le contenu ensuite ?

dans le 2e cas, wget -O fichier_de_sortie http://tonsite.example.tld/tapage doit stocker ta page reçue dans fichier_de_sortie,
ensuite tu l'analyse avec tes scripts.
- [^] # Re: nags, supervision et page web
  
  Posté par YELLOWDOG le 07 avril 2021 à 08:58. Évalué à 1. Dernière modification le 16 septembre 2024 à 21:22.
  
  Bonjour,
  
  Merci pour ton retour, mais la commande wget -O fichier_de_sortie http://tonsite.example.tld/tapage
  
  ne me permet pas d'analyser le contenu de la page WEB.
  
  Ci-dessous ce que je veux analyser dans un script:
  
  https://www.transfernow.net/dl/20210407dHDtWiBq
  
  Ci-dessous ce que me renvoila commande wget -O:
  
  https://www.transfernow.net/dl/20210407akol6uVt
  - [^] # Re: nags, supervision et page web
    
    Posté par YELLOWDOG le 07 avril 2021 à 09:04. Évalué à 1.
    
    Bon, apparemment les liens de mes fichiers ne fonctionnent pas. Ce sont des liens https:
    
    https://www.transfernow.net/dl/20210407akol6uVt
    
    et
    
    https://www.transfernow.net/dl/20210407dHDtWiBq
    
    C'est parce que c'est du https que ça ne s'affiche pas ?
    - [^] # Re: nags, supervision et page web
      
      Posté par Yves Bourguignon le 07 avril 2021 à 10:57. Évalué à 4.
      
      2 ou 3 choses à revoir pour aider tes lecteurs à comprendre :
      - La syntaxe markdown pour afficher une image hébergée
      - Le site d'hébergement mal choisi : Transfernow est adapté au transfert de gros fichiers mais pas pour le stockage pérenne d'images.
      - Faire une image pour montrer du texte, alors que souvent un copié-collé du code mis en forme suffit et est plus lisible.
      
      Par ailleurs, les valeurs ou états dont a besoin Nagios sont peut-être à chercher en amont par une autre méthode sur le serveur en question ?
# api

Posté par Psychofox (Mastodon) le 06 avril 2021 à 08:43. Évalué à 2.

Les dernières versions n'ont pas d'accès via une API rest? C'est le mode d'utilisation que je privilégierait pour récupérer le états et éventuellement les afficher de nouveau à ma sauce.
# Voir dans les outils de test de sites web

Posté par cg le 06 avril 2021 à 20:36. Évalué à 2.

Les outils de test web sont tes amis, je pense.

Par exemple Selenium ou Puppeteer.
# Hum

Posté par arnauld le 07 avril 2021 à 19:34. Évalué à 1.

Je n'ai pas tout compris mais j'utilise souvent deux extensions Firefox :
SingleFile https://addons.mozilla.org/fr/firefox/addon/single-file/ et SingleFileZ https://addons.mozilla.org/fr/firefox/addon/singlefilez/

et en ligne de commande : monolith https://github.com/Y2Z/monolith

arnauld

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.