Journal Traitement de page HTML

Posté par Fabien le 30 septembre 2003 à 13:21.

Étiquettes : aucune

sept.

2003

Bonjour,

Je voudrais extraire des données d'une page HTML pour les enregistrer par la suite dans une base de données SQL.

La page en question est la page suivante http://slhs1.univ-fcomte.fr/edt/edit_edtetap.idc?etacod=216&sem(...) , et il s'agit d'un emploi du temps. Pour le moment je comptais utiliser des expressions régulières, et plus particulierement l'expression suivante :
'.*' pour recuperer le contenu des cellules qui m'interresse mais cela ne marche pas... ;(

Est-ce que une personne aurait une autre idée, soit en n'utilisant pas les expressions regulières qoit avec une autre regexp que celle que j'utilise actuellement.

Merci de votre aide, je compte faire ça en Python ou en PHP (avec une preference pour Python).

# Re: Traitement de page HTML

Posté par KiKouN le 30 septembre 2003 à 13:30. Évalué à 1.

J'ai réaliser un truc du même style en perl qui m'envoie mon cours un quart d'heure avant qu'il ne commence par sms.

Grossomodo, je recupere la page. Je coupe tous ce qui n'est pas entre les . puis ca passe dans un bout de code récupere sur le net pour éliminer les balises restantes et traiter tous ce qui est espace et autre. Puis pour finir je recupere les elements interessant par la suite.

Je t'enverrais le script si tu veux ce soir (ca peux etre utile pour les expressions régulières et il y en a un tas)(et si j ai encore le net).
- [^] # Re: Traitement de page HTML
  
  Posté par Fabien le 30 septembre 2003 à 13:38. Évalué à 1.
  
  Oui, ça m'aiderai bien.
  
  mon email : skink [chez] oreka [point] com
- [^] # Re: Traitement de page HTML
  
  Posté par Anonyme le 30 septembre 2003 à 14:06. Évalué à 1.
  
  Hum... moi j'aimerais bien savoir comment t'envoie un sms avec ton script :)
  - [^] # Re: Traitement de page HTML
    
    Posté par iTanguy le 30 septembre 2003 à 14:43. Évalué à 1.
    
    c'est peut-etre tout simplement via le compte-email-qui-envoie-un-SMS-avec-le-nom-de-l'-expediteur-et-le-sujet que beaucoup d'operateurs proposent a present? (j'ai jamais essaye, ceci-dit)
    - [^] # Re: Traitement de page HTML
      
      Posté par KiKouN le 30 septembre 2003 à 15:58. Évalué à 1.
      
      Tout a fait un ptit email vers mon_numero [at] mon_operateur_de_telephonie_mobile [pt] fr et voila.
      
      Bon je te l'envoye ce soir alors.
# Re: Traitement de page HTML

Posté par Dam_ned le 30 septembre 2003 à 13:36. Évalué à 2.

Normal les balises ne sont pratiquement jamais fermées
donc le n'est jamais matché

Si tu as moyen d'engeuler celui ou celle qui a fait cette page c'est le moment :)

Dam
- [^] # Re: Traitement de page HTML
 
 Posté par B r u n o (site web personnel) le 30 septembre 2003 à 14:30. Évalué à 1.
 
 Sinon essayer de passer la page à un truc comme HtmlTidy http://tidy.sourceforge.net/(...) ou http://www.w3.org/People/Raggett/tidy/(...) qui va essayer de corriger le code (balancer les tags, remettre en forme le html, ...)
 
 ca peut servir avant d'appliquer ton expression reguliere.
# Re: Traitement de page HTML

Posté par __caffeine__ le 30 septembre 2003 à 15:30. Évalué à 1.

Si tu veux le faire en Python, tu as le module htmllib pour parser du HTML. Pas compliqué à utiliser, tu fais une classe fille de HTMLparser dont tu redéfinis la méthode starttag. C'est 3 lignes de codes, le parser digère bien le HTML non conforme, et y'a un exemple tout prêt dans la doc.
- [^] # Re: Traitement de page HTML
  
  Posté par Fabien le 30 septembre 2003 à 15:49. Évalué à 1.
  
  Disons que c'est ce que j'ai essayé hier soir mais je devait être particulieremebt fatigué parce que j'ai rien réussi à faire.... ;(
# Re: Traitement de page HTML

Posté par Pascal MERCIER le 30 septembre 2003 à 18:30. Évalué à 1.

]*size="1"[^>]*>.*<\/font[^>]*>

devrai faire l'affaire.

Moi j'aimerais savoir un truc, vous les envoyez avec quoi vos sms ?
- [^] # Re: Traitement de page HTML
 
 Posté par KiKouN le 30 septembre 2003 à 19:27. Évalué à 1.
 
 bin j'ai une email chez un operateur de téléphonie mobiles. Et quand un mail arrive à cette adresse. bin je le recois en 1 à 5 sms selon la taille du mail (nb: pas plus de 5 sms par email).
 
 Je te laisse chercher la suite tous seul.
# Re: Traitement de page HTML

Posté par Laurent J (site web personnel, Mastodon) le 30 septembre 2003 à 18:48. Évalué à 1.

aaaaah là là, si tout le monde faisait du code XHTML conforme sur leur site... Un petit coup de XSL ou de DOM/scripting et hop, terminé en deux coups de cuillère à parseur...

**soupir**

Vive le web sémantique :-)
- [^] # Re: Traitement de page HTML
  
  Posté par KiKouN le 30 septembre 2003 à 19:45. Évalué à 1.
  
  je ne peux te plusoyer sniff. (moyenne à 1).
# Re: Traitement de page HTML

Posté par olivierweb le 30 septembre 2003 à 19:31. Évalué à 1.

As-tu essayé w3m ?

ce navigateur en mode texte permet la transformation des tableaux en sortie texte.

un man w3m donne :

EXAMPLES
To use w3m as a pager:
$ ls | w3m

To use w3m to translate HTML files:
$ cat foo.html | w3m -T text/html

or
$ cat foo.html | w3m -dump -T text/html >foo.txt
# Re: Traitement de page HTML

Posté par Fabien le 30 septembre 2003 à 21:26. Évalué à 1.

pour le moment j'ai dait la chose suivante
je transforme la page en liste (ligne par ligne) et apres je test si le debut de la ligne commence par '<td>.....'

il me reste a enregistrer les resultats dans la bdd
# Re: Traitement de page HTML

Posté par Gabriel le 30 septembre 2003 à 21:31. Évalué à 1.

Il y a des modules perl qui sontt pas mal pour cela.Notamment : Ôter des balises, récupérer que le "txt" ...
Mais bon Python Y's noT 'H perl, come ON...

Autre stratégie : récupère les <td></td> qui t'int"ressent et vire tout ce qui ressemble à des tags.<.*?> (pas certifié)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.