J'ai testé. Ca marche fort bien, sauf avec certaines pages.
En particulier, certaines pages de Blogger (Google) ne passent pas. Il me sort les styles comme contenu et me zappe tout le contenu réel.
Donc je recherche toute chaine de caracteres commencant par "<" et se terminant par ">". Ensuite je remplace cette chaine de caractere par '' (cad rien).
Ce systeme est assez souple, a voir s'il supporte les pages mal formatees.
# Redéfinition de la fonction
Posté par Nim . Évalué à 3.
[^] # Re: Redéfinition de la fonction
Posté par Robert VISEUR (site web personnel) . Évalué à 1.
Ma crainte par rapport à HTMLParser : est-ce robuste vis-à-vis du code HTML mal formé ?
[^] # Re: Redéfinition de la fonction
Posté par Nim . Évalué à 2.
[^] # Re: Redéfinition de la fonction
Posté par Robert VISEUR (site web personnel) . Évalué à 1.
En particulier, certaines pages de Blogger (Google) ne passent pas. Il me sort les styles comme contenu et me zappe tout le contenu réel.
[^] # Re: Redéfinition de la fonction
Posté par william_os . Évalué à 1.
Voici un example:
>>> import re
>>> reg=re.compile('<.*?>')
>>> reg.sub('','toto <b>fdsd</b>')
'toto fdsd'
>>>
Donc je recherche toute chaine de caracteres commencant par "<" et se terminant par ">". Ensuite je remplace cette chaine de caractere par '' (cad rien).
Ce systeme est assez souple, a voir s'il supporte les pages mal formatees.
A+
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.