J'aimerai analyser des fichiers html (pour récupérer le contenu entre deux balises).
Voici ce que j'ai trouvé :
- Le lire avec des RegExp : c'est pas assez fiable ni modulaire (un div entre 2 div par exemple...)
- Le lire comme un .xml (ou équivalent) : malheureusement les fichiers html ne respecte pas les normes XML (balises non fermées, ...)
- Un truc propriétaire : http://www.reflectionit.nl/Html2Xml.aspx(mais ca à l'air d'être abandonné et bien sûr on ne peut pas reprendre le (…)