Forum Programmation.python modification d'une expression régulière

Posté par  .
Étiquettes : aucune
0
19
août
2007
Bonjour,

Étant un utilisateur de tellico, j'emploie le script python qui permet de parser le résultat des recherches faites sur allocine.fr. Cependant, vu que ce script ne semble plus être maintenu et que le site d'allocine est modifié, il y avais des modifications à faire. Le problème c'est que je n'y connais pas grand chose en python et je patauge un peu avec les regexp de python.

Bon en gros le problème c'est :
Allocine donne plusieurs acteurs jouant dans le film mais l'expression régulière ne prend que le premier. Si je le modifie, j'ai tout les acteurs mais aussi un tag qui suit le dernier (un truc du genre <img>...) et je parviens pas à le virer.

Voici l'expression régulière :

<h4>Avec *<a.*?personne.*?>(?P<step1>.+?),?</h4>

Et voici un exemple de morceau de code html pour les acteurs :

<h4>Avec <a class="link1" href="/personne/fichepersonne_gen_cpersonne=1067.html">Arnold Schwarzenegger</a>,
<a class="link1" href="/personne/fichepersonne_gen_cpersonne=1068.html">Michael Biehn</a>,
<a class="link1" href="/personne/fichepersonne_gen_cpersonne=1069.html">Linda Hamilton</a> &nbsp;&nbsp;
<img src="http://a69.g.akamai.net/n/69/10688/v1/img5.allocine.fr/acmed(...)" border="0" style="margin: 0 6 0 0" width="6" height="8" />
<a href="/film/casting_gen_cfilm=309.html" class="link1">Plus...</a></h4>

Et finalement, un exemple de résultat :

Arnold Schwarzenegger
Michael Biehn
Linda Hamilton &nbsp;&nbsp;<img
src="http://a69.g.akamai.net/n/69/10688/v1/img5.allocine.fr/acmed(...)" border="0" style="margin: 0 6 0 0" width="6" height="8" />
Plus...


Le but est donc de modifier l'expression régulière pour ne pas prendre ce qui suit les &nbsp;

Voila, si quelqu'un sait m'aider ce serait sympa ;-)
  • # Delimiter l'espace de recherche ?

    Posté par  . Évalué à 2.

    Si le dernier acteur a toujours   plutot que de delimiter par et tu delimite par et  
  • # changer

    Posté par  (site web personnel) . Évalué à 2.

    ça serait pas plus simple de chercher à l'intérieur des balises h4
    href="/personne/, puis récupérer ce qui est entre html"> et ?

    Si j'ai un peu de temps je ferai la modif un de ces soirs.

    Si tu installais kodos
    http://kodos.sourceforge.net/

    pour apprendre à manipuler les regex ?

    Tu peux aussi utiliser le module re de python.

    ウィズコロナ

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.