bonjour journal,
Je profite d'avoir une question pas trop bête (enfin je l'espère:)), pour poster mon premier journal.
je m'occupe actuellement d'un site internet composé d'environ deux cents pages statiques.
Afin, d'effectuer la refonte de ce site, et surtout pour éviter de tout retaper :), Je souhaiterai savoir s'il existe des moulinettes, permettant de dissocier le contenu (texte) de la mise en pages.
Dans le cas contraire, si vous avez quelques idées pour orienté le développement de cette moulinette, elles seront les bienvenues.
Merci d'avance
morei
# Re: comment récupérer les données d'une page html
Posté par Hardy Damien . Évalué à 6.
je n'ai pas testé mais je pense que c'est une bonne piste
Dam
# Re: comment récupérer les données d'une page html
Posté par icyfemur . Évalué à 1.
[^] # Re: comment récupérer les données d'une page html
Posté par \o/ . Évalué à 4.
[^] # Re: comment récupérer les données d'une page html
Posté par morei . Évalué à 1.
mais je vais regarder ça...
merci
[^] # Re: comment récupérer les données d'une page html
Posté par astennu . Évalué à 2.
# Re: comment récupérer les données d'une page html
Posté par Obi MO (site web personnel) . Évalué à 0. Dernière modification le 04 décembre 2021 à 20:52.
ouvrir la page dans mozilla. File->Save Page As
Mettre le filtre sur text file (.txt)
tu conserves juste les liens…
exemple sur la page de post :
comment récupérer les données d'une page html
bonjour journal,
Je profite d'avoir une question pas trop bête (enfin je l'espère:)),
pour poster mon premier journal.
je m'occupe actuellement d'un site internet composé d'environ deux cents
pages statiques.
Afin, d'effectuer la refonte de ce site, et surtout pour éviter de tout
retaper :), Je souhaiterai savoir s'il existe des moulinettes,
permettant de dissocier le contenu (texte) de la mise en pages.
Dans le cas contraire, si vous avez quelques idées pour orienter le
développement de cette moulinette, elles seront les bienvenues.
Merci d'avance
morei
[^] # Re: comment récupérer les données d'une page html
Posté par morei . Évalué à 1.
merci, je le garde de côté au cas où
[^] # Re: comment récupérer les données d'une page html
Posté par Obi MO (site web personnel) . Évalué à 1.
Si tu as 200 pages à faire, je me demande si on peut faire ça avec un petit script contenant des -remote
[ Execute in an already running Mozilla process. For more info, see: http://www.mozilla.org/unix/remote.html(...) ]
Simmple, efficace.
un truc du genre
#!/bin/bash
DESTDIR= met ici le répertoire de destination
for i in $(find . -name "*.html")
do
mozilla -remote "openFile(file://$(pwd)${i})"
mozilla -remote "saveAs(file://${DESTDIR}${i}, text)"
done
Sous réserve que le -remote saveAs qui ne marche pas sur ma version (mozilla 1.0) ait été fixé depuis ...
# Re: comment récupérer les données d'une page html
Posté par Infernal Quack (site web personnel) . Évalué à 2.
L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire
[^] # Re: comment récupérer les données d'une page html
Posté par morei . Évalué à 2.
# Re: comment récupérer les données d'une page html
Posté par XHTML/CSS inside (site web personnel) . Évalué à 1.
# En Perl (pas testé :-)
Posté par QS . Évalué à 1.
use HTML::Parse;
use HTML::FormatText;
$html = HTML::Parse::parse_htmlfile('fichier.html');
$formatter = new HTML::FormatText;
$texte = $formatter->format($html);
print $texte;
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.