Journal comment récupérer les données d'une page html

Posté par  .
Étiquettes : aucune
0
21
mai
2003
bonjour journal,

Je profite d'avoir une question pas trop bête (enfin je l'espère:)), pour poster mon premier journal.

je m'occupe actuellement d'un site internet composé d'environ deux cents pages statiques.

Afin, d'effectuer la refonte de ce site, et surtout pour éviter de tout retaper :), Je souhaiterai savoir s'il existe des moulinettes, permettant de dissocier le contenu (texte) de la mise en pages.

Dans le cas contraire, si vous avez quelques idées pour orienté le développement de cette moulinette, elles seront les bienvenues.

Merci d'avance

morei
  • # Re: comment récupérer les données d'une page html

    Posté par  . Évalué à 6.

    sed 's/<[^>]*>//' *.html

    je n'ai pas testé mais je pense que c'est une bonne piste

    Dam
  • # Re: comment récupérer les données d'une page html

    Posté par  . Évalué à 1.

    Lynx ?
  • # Re: comment récupérer les données d'une page html

    Posté par  (site web personnel) . Évalué à 0. Dernière modification le 04 décembre 2021 à 20:52.

    ouvrir la page dans mozilla. File->Save Page As

    Mettre le filtre sur text file (.txt)

    tu conserves juste les liens…

    exemple sur la page de post :

    <blockquote>  
    mercredi 21 mai  
    
    LinuxGraphic <http://www.linuxgraphic.org/> :: Templeet  
    <http://templeet.org/> :: Léa-Linux <http://lea-linux.org/> :: Lolix  
    <http://fr.lolix.org/> :: JeSuisLibre <http://www.jesuislibre.org/> ::  
    LinuxFrench <http://www.linuxfrench.net/> :: *21 mai 2003  
    <http://www.autourdulibre.org/> :: * Charge serveur  
    <../images/load/load.png>  
    Faire un don ! <../dons/> | accès sécurisé SSL  
    <https://linuxfr.org/comments_reply,2893,0,5.html> | créer un compte  
    <../user_new.html> | statistiques <../stats/> | contactez-nous  
    <mailto:moderateursATlinuxfr.org> | &amp;#65533;propos &lt;../about/>  
    Accueil <../> :: Dépêcheshes <../news/> :: Archives <../news/archive/> ::  
    Contribuer <../submit.html> :: Journaux <../journal/> :: Forums  
    <../forums/> :: RDF <../rdf/>  
    

    comment récupérer les données d'une page html

    bonjour journal,

    Je profite d'avoir une question pas trop bête (enfin je l'espère:)),

    pour poster mon premier journal.

    je m'occupe actuellement d'un site internet composé d'environ deux cents

    pages statiques.

    Afin, d'effectuer la refonte de ce site, et surtout pour éviter de tout

    retaper :), Je souhaiterai savoir s'il existe des moulinettes,

    permettant de dissocier le contenu (texte) de la mise en pages.

    Dans le cas contraire, si vous avez quelques idées pour orienter le

    développement de cette moulinette, elles seront les bienvenues.

    Merci d'avance

    morei

    > Posté par morei <../~morei/> le 21/05/2003 @ 16:06:47  
    
    Vous êtes identifié sous le compte lother <../user_prefs.html>.  
    
    Votre adresse IP sera sauvegardée, elle ne sera pas affichée sur le  
    site, mais elle nous permet de pouvoir prévenir tout abus.  
    *Prévisualisez* votre commentaire, vous ne pourrez pas le modifier ensuite!  
    
    Les tags suivants sont autorisés: (...)
    
        Pour les urls, tapez les directement, avec un espace à la fin.  
    
        Cette page a été générée par Templeet <http://www.templeet.org> en  
        0.3241s (dont 0.1535 de SQL). (Voir le source du template  
        <../template/comments_reply.tmpl>)  
        Cette page est peut-être conforme xhtml 1.0  
        <http://validator.w3.org/check/referer>.  
        Information sur le site <../association/>.
    
    Je sais pas si c'est moi, mais templeet à pas l'air de trop aimer le blockquote 
    
    • [^] # Re: comment récupérer les données d'une page html

      Posté par  . Évalué à 1.

      oui, mais je but serait d'automatiser un peu la récupération du contenu, féniant moi??? :)

      merci, je le garde de côté au cas où
    • [^] # Re: comment récupérer les données d'une page html

      Posté par  (site web personnel) . Évalué à 1.

      Au temps pour moi, il y avait aussi blockquote dans la page que j'ai copiée, plus tous les tags autorisés, templeet a fait comme il faut.

      Si tu as 200 pages à faire, je me demande si on peut faire ça avec un petit script contenant des -remote
      [ Execute in an already running Mozilla process. For more info, see: http://www.mozilla.org/unix/remote.html(...) ]

      Simmple, efficace.

      un truc du genre
      #!/bin/bash
      DESTDIR= met ici le répertoire de destination
      for i in $(find . -name "*.html")
      do
      mozilla -remote "openFile(file://$(pwd)${i})"
      mozilla -remote "saveAs(file://${DESTDIR}${i}, text)"
      done

      Sous réserve que le -remote saveAs qui ne marche pas sur ma version (mozilla 1.0) ait été fixé depuis ...
  • # Re: comment récupérer les données d'une page html

    Posté par  (site web personnel) . Évalué à 2.

    Le prochain coup fait le site en XHTML et CSS comme-ça le contenu et la mise en page seront mieux séparées :)

    L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

  • # Re: comment récupérer les données d'une page html

    Posté par  (site web personnel) . Évalué à 1.

    Ca peut se faire en php, mais ca sera du fait main (le programme), donc tu risques d'avoir du boulot...
  • # En Perl (pas testé :-)

    Posté par  . Évalué à 1.

    #!/usr/bin/perl

    use HTML::Parse;
    use HTML::FormatText;

    $html = HTML::Parse::parse_htmlfile('fichier.html');
    $formatter = new HTML::FormatText;
    $texte = $formatter->format($html);
    print $texte;

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.