Bonjour,
Je voudrais extraire des données d'une page HTML pour les enregistrer par la suite dans une base de données SQL.
La page en question est la page suivante http://slhs1.univ-fcomte.fr/edt/edit_edtetap.idc?etacod=216&sem(...) , et il s'agit d'un emploi du temps. Pour le moment je comptais utiliser des expressions régulières, et plus particulierement l'expression suivante :
'<font size="-1">.*</font>' pour recuperer le contenu des cellules qui m'interresse mais cela ne marche pas... ;(
Est-ce que une personne aurait une autre idée, soit en n'utilisant pas les expressions regulières qoit avec une autre regexp que celle que j'utilise actuellement.
Merci de votre aide, je compte faire ça en Python ou en PHP (avec une preference pour Python).
# Re: Traitement de page HTML
Posté par KiKouN . Évalué à 1.
Grossomodo, je recupere la page. Je coupe tous ce qui n'est pas entre les . puis ca passe dans un bout de code récupere sur le net pour éliminer les balises restantes et traiter tous ce qui est espace et autre. Puis pour finir je recupere les elements interessant par la suite.
Je t'enverrais le script si tu veux ce soir (ca peux etre utile pour les expressions régulières et il y en a un tas)(et si j ai encore le net).
[^] # Re: Traitement de page HTML
Posté par Fabien (site web personnel) . Évalué à 1.
mon email : skink [chez] oreka [point] com
[^] # Re: Traitement de page HTML
Posté par Anonyme . Évalué à 1.
[^] # Re: Traitement de page HTML
Posté par iTanguy . Évalué à 1.
[^] # Re: Traitement de page HTML
Posté par KiKouN . Évalué à 1.
Bon je te l'envoye ce soir alors.
# Re: Traitement de page HTML
Posté par Hardy Damien . Évalué à 2.
donc le </font > n'est jamais matché
Si tu as moyen d'engeuler celui ou celle qui a fait cette page c'est le moment :)
Dam
[^] # Re: Traitement de page HTML
Posté par B r u n o (site web personnel) . Évalué à 1.
ca peut servir avant d'appliquer ton expression reguliere.
# Re: Traitement de page HTML
Posté par __caffeine__ . Évalué à 1.
[^] # Re: Traitement de page HTML
Posté par Fabien (site web personnel) . Évalué à 1.
# Re: Traitement de page HTML
Posté par Pascal MERCIER . Évalué à 1.
devrai faire l'affaire.
Moi j'aimerais savoir un truc, vous les envoyez avec quoi vos sms ?
[^] # Re: Traitement de page HTML
Posté par KiKouN . Évalué à 1.
Je te laisse chercher la suite tous seul.
# Re: Traitement de page HTML
Posté par Laurent J (site web personnel, Mastodon) . Évalué à 1.
**soupir**
Vive le web sémantique :-)
[^] # Re: Traitement de page HTML
Posté par KiKouN . Évalué à 1.
# Re: Traitement de page HTML
Posté par olivierweb . Évalué à 1.
ce navigateur en mode texte permet la transformation des tableaux en sortie texte.
un man w3m donne :
EXAMPLES
To use w3m as a pager:
$ ls | w3m
To use w3m to translate HTML files:
$ cat foo.html | w3m -T text/html
or
$ cat foo.html | w3m -dump -T text/html >foo.txt
# Re: Traitement de page HTML
Posté par Fabien (site web personnel) . Évalué à 1.
je transforme la page en liste (ligne par ligne) et apres je test si le debut de la ligne commence par '<td><font>.....'
il me reste a enregistrer les resultats dans la bdd
# Re: Traitement de page HTML
Posté par Gabriel . Évalué à 1.
Mais bon Python Y's noT 'H perl, come ON...
Autre stratégie : récupère les <td></td> qui t'int"ressent et vire tout ce qui ressemble à des tags.<.*?> (pas certifié)
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.