Forum Programmation.python modification d'une expression régulière

Posté par  (site web personnel) .
Étiquettes : aucune
0
19
août
2007
Bonjour,

Étant un utilisateur de tellico, j'emploie le script python qui permet de parser le résultat des recherches faites sur allocine.fr. Cependant, vu que ce script ne semble plus être maintenu et que le site d'allocine est modifié, il y avais des modifications à faire. Le problème c'est que je n'y connais pas grand chose en python et je patauge un peu avec les regexp de python.

Bon en gros le problème c'est :
Allocine donne plusieurs acteurs jouant dans le film mais l'expression régulière ne prend que le premier. Si je le modifie, j'ai tout les acteurs mais aussi un tag qui suit le dernier (un truc du genre <img>...) et je parviens pas à le virer.

Voici l'expression régulière :

<h4>Avec *<a.*?personne.*?>(?P<step1>.+?),?</h4>

Et voici un exemple de morceau de code html pour les acteurs :

<h4>Avec <a class="link1" href="/personne/fichepersonne_gen_cpersonne=1067.html">Arnold Schwarzenegger</a>,
<a class="link1" href="/personne/fichepersonne_gen_cpersonne=1068.html">Michael Biehn</a>,
<a class="link1" href="/personne/fichepersonne_gen_cpersonne=1069.html">Linda Hamilton</a> &nbsp;&nbsp;
<img src="http://a69.g.akamai.net/n/69/10688/v1/img5.allocine.fr/acmed(...)" border="0" style="margin: 0 6 0 0" width="6" height="8" />
<a href="/film/casting_gen_cfilm=309.html" class="link1">Plus...</a></h4>

Et finalement, un exemple de résultat :

Arnold Schwarzenegger
Michael Biehn
Linda Hamilton &nbsp;&nbsp;<img
src="http://a69.g.akamai.net/n/69/10688/v1/img5.allocine.fr/acmed(...)" border="0" style="margin: 0 6 0 0" width="6" height="8" />
Plus...


Le but est donc de modifier l'expression régulière pour ne pas prendre ce qui suit les &nbsp;

Voila, si quelqu'un sait m'aider ce serait sympa ;-)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.