Journal comment récupérer les données d'une page html

Posté par morei le 21 mai 2003 à 16:06.

Étiquettes : aucune

mai

2003

bonjour journal,

Je profite d'avoir une question pas trop bête (enfin je l'espère:)), pour poster mon premier journal.

je m'occupe actuellement d'un site internet composé d'environ deux cents pages statiques.

Afin, d'effectuer la refonte de ce site, et surtout pour éviter de tout retaper :), Je souhaiterai savoir s'il existe des moulinettes, permettant de dissocier le contenu (texte) de la mise en pages.

Dans le cas contraire, si vous avez quelques idées pour orienté le développement de cette moulinette, elles seront les bienvenues.

Merci d'avance

morei

# Re: comment récupérer les données d'une page html

Posté par Dam_ned le 21 mai 2003 à 16:21. Évalué à 6.

sed 's/<[^>]*>//' *.html

je n'ai pas testé mais je pense que c'est une bonne piste

Dam
# Re: comment récupérer les données d'une page html

Posté par icyfemur le 21 mai 2003 à 16:27. Évalué à 1.

Lynx ?
- [^] # Re: comment récupérer les données d'une page html
  
  Posté par \o/ le 21 mai 2003 à 16:59. Évalué à 4.
  
  Je dirais même plus: lynx --dump
  - [^] # Re: comment récupérer les données d'une page html
    
    Posté par morei le 21 mai 2003 à 17:07. Évalué à 1.
    
    je ne connais pas très bien Lynx,
    mais je vais regarder ça...
    
    merci
    - [^] # Re: comment récupérer les données d'une page html
      
      Posté par astennu le 21 mai 2003 à 17:17. Évalué à 2.
      
      #!/bin/sh for foo in `ls` do : lynx --dump $foo > $foo.dmp done
# Re: comment récupérer les données d'une page html

Posté par Obi MO (site web personnel) le 21 mai 2003 à 16:55. Évalué à 0. Dernière modification le 04 décembre 2021 à 20:52.
ouvrir la page dans mozilla. File->Save Page As

Mettre le filtre sur text file (.txt)

tu conserves juste les liens…

exemple sur la page de post :
```
<blockquote>  
mercredi 21 mai  

LinuxGraphic <http://www.linuxgraphic.org/> :: Templeet  
<http://templeet.org/> :: Léa-Linux <http://lea-linux.org/> :: Lolix  
<http://fr.lolix.org/> :: JeSuisLibre <http://www.jesuislibre.org/> ::  
LinuxFrench <http://www.linuxfrench.net/> :: *21 mai 2003  
<http://www.autourdulibre.org/> :: * Charge serveur  
<../images/load/load.png>  
Faire un don ! <../dons/> | accès sécurisé SSL  
<https://linuxfr.org/comments_reply,2893,0,5.html> | créer un compte  
<../user_new.html> | statistiques <../stats/> | contactez-nous  
<mailto:moderateursATlinuxfr.org> | &amp;#65533;propos &lt;../about/>  
Accueil <../> :: Dépêcheshes <../news/> :: Archives <../news/archive/> ::  
Contribuer <../submit.html> :: Journaux <../journal/> :: Forums  
<../forums/> :: RDF <../rdf/>  
```
comment récupérer les données d'une page html

bonjour journal,

Je profite d'avoir une question pas trop bête (enfin je l'espère:)),

pour poster mon premier journal.

je m'occupe actuellement d'un site internet composé d'environ deux cents

pages statiques.

Afin, d'effectuer la refonte de ce site, et surtout pour éviter de tout

retaper :), Je souhaiterai savoir s'il existe des moulinettes,

permettant de dissocier le contenu (texte) de la mise en pages.

Dans le cas contraire, si vous avez quelques idées pour orienter le

développement de cette moulinette, elles seront les bienvenues.

Merci d'avance

morei
```
> Posté par morei <../~morei/> le 21/05/2003 @ 16:06:47  

Vous êtes identifié sous le compte lother <../user_prefs.html>.  

Votre adresse IP sera sauvegardée, elle ne sera pas affichée sur le  
site, mais elle nous permet de pouvoir prévenir tout abus.  
*Prévisualisez* votre commentaire, vous ne pourrez pas le modifier ensuite!  

Les tags suivants sont autorisés: (...)

    Pour les urls, tapez les directement, avec un espace à la fin.  

    Cette page a été générée par Templeet <http://www.templeet.org> en  
    0.3241s (dont 0.1535 de SQL). (Voir le source du template  
    <../template/comments_reply.tmpl>)  
    Cette page est peut-être conforme xhtml 1.0  
    <http://validator.w3.org/check/referer>.  
    Information sur le site <../association/>.
```
```
Je sais pas si c'est moi, mais templeet à pas l'air de trop aimer le blockquote 
```
- [^] # Re: comment récupérer les données d'une page html
  
  Posté par morei le 21 mai 2003 à 17:12. Évalué à 1.
  
  oui, mais je but serait d'automatiser un peu la récupération du contenu, féniant moi??? :)
  
  merci, je le garde de côté au cas où
- [^] # Re: comment récupérer les données d'une page html
  
  Posté par Obi MO (site web personnel) le 21 mai 2003 à 17:12. Évalué à 1.
  
  Au temps pour moi, il y avait aussi blockquote dans la page que j'ai copiée, plus tous les tags autorisés, templeet a fait comme il faut.
  
  Si tu as 200 pages à faire, je me demande si on peut faire ça avec un petit script contenant des -remote
  [ Execute in an already running Mozilla process. For more info, see: http://www.mozilla.org/unix/remote.html(...) ]
  
  Simmple, efficace.
  
  un truc du genre
  #!/bin/bash
  DESTDIR= met ici le répertoire de destination
  for i in $(find . -name "*.html")
  do
  mozilla -remote "openFile(file://$(pwd)${i})"
  mozilla -remote "saveAs(file://${DESTDIR}${i}, text)"
  done
  
  Sous réserve que le -remote saveAs qui ne marche pas sur ma version (mozilla 1.0) ait été fixé depuis ...
# Re: comment récupérer les données d'une page html

Posté par Infernal Quack (site web personnel) le 21 mai 2003 à 16:58. Évalué à 2.

Le prochain coup fait le site en XHTML et CSS comme-ça le contenu et la mise en page seront mieux séparées :)
L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire
- [^] # Re: comment récupérer les données d'une page html
  
  Posté par morei le 21 mai 2003 à 17:06. Évalué à 2.
  
  je suis bien d'accord avec toi, mais le site date de 1999... et il est certes temps de lui refaire une petite beauté :)
# Re: comment récupérer les données d'une page html

Posté par XHTML/CSS inside (site web personnel) le 21 mai 2003 à 18:16. Évalué à 1.

Ca peut se faire en php, mais ca sera du fait main (le programme), donc tu risques d'avoir du boulot...
# En Perl (pas testé :-)

Posté par QS le 22 mai 2003 à 00:40. Évalué à 1.

#!/usr/bin/perl

use HTML::Parse;
use HTML::FormatText;

$html = HTML::Parse::parse_htmlfile('fichier.html');
$formatter = new HTML::FormatText;
$texte = $formatter->format($html);
print $texte;

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.