Forum Programmation.python PHP strip_tags sous Python ?

Posté par Robert VISEUR le 17 août 2005 à 13:40.

Étiquettes : aucune

août

2005

Existe-t-il en Python une fonction simple et robuste équivalente au strip_tags du PHP (suppression des balises HTML dans un document HTML) ?

# Redéfinition de la fonction

Posté par Nim le 17 août 2005 à 14:04. Évalué à 3.
Je ne connait pas de telle fonction mais on peut la définir aisement en faisant appel à HTMLParser.
```
from HTMLParser import HTMLParser
def strip_tags(html):
     result = []
     parser = HTMLParser()
     parser.handle_data = result.append
     parser.feed(html)
     parser.close()
     return ''.join(result)
```
- [^] # Re: Redéfinition de la fonction
  
  Posté par Robert VISEUR le 17 août 2005 à 14:09. Évalué à 1.
  
  Ca me semble parfait. Un grand merci !
  
  Ma crainte par rapport à HTMLParser : est-ce robuste vis-à-vis du code HTML mal formé ?
  - [^] # Re: Redéfinition de la fonction
    
    Posté par Nim le 17 août 2005 à 14:20. Évalué à 2.
    
    J'utilise cette fonction avec des champs remplis par les utilisateurs et je n'ai pas de soucis. Donc pas de problèmes de ce coté là.
- [^] # Re: Redéfinition de la fonction
  
  Posté par Robert VISEUR le 30 août 2005 à 21:38. Évalué à 1.
  
  J'ai testé. Ca marche fort bien, sauf avec certaines pages.
  En particulier, certaines pages de Blogger (Google) ne passent pas. Il me sort les styles comme contenu et me zappe tout le contenu réel.
  - [^] # Re: Redéfinition de la fonction
    
    Posté par william_os le 04 septembre 2005 à 14:07. Évalué à 1.
    
    as-tu pense a regexp ?
    
    Voici un example:
    
    >>> import re
    >>> reg=re.compile('<.*?>')
    >>> reg.sub('','toto <b>fdsd</b>')
    'toto fdsd'
    >>>
    
    Donc je recherche toute chaine de caracteres commencant par "<" et se terminant par ">". Ensuite je remplace cette chaine de caractere par '' (cad rien).
    
    Ce systeme est assez souple, a voir s'il supporte les pages mal formatees.
    
    A+

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

# Redéfinition de la fonction

[^] # Re: Redéfinition de la fonction

[^] # Re: Redéfinition de la fonction

[^] # Re: Redéfinition de la fonction

[^] # Re: Redéfinition de la fonction