Forum Programmation.c++ Analyse HTML et envoi de mails en C++

Posté par  (site web personnel) .
Étiquettes : aucune
0
8
juil.
2004
Je cherche du code (Open Source ou du domaine public) développé en C/C++ permettant :

- d'extraire les URLs d'une page HTML
- d'envoyer un mail

Les deux problèmes me semblant tellement courant, je me dis qu'il y a bien d'autres personnes qui y ont pensé avant moi et ont écrit le code.
Pour le mail, j'ai trouvé ça ( http://www.sheep-team.org/prog/14(...) ) mais ne sait pas trop ce que ça vaut.
Pour les URLs, j'ai une bidouille personnelle (sur base de wxWidgets), mais qui ne me satisfait pas trop...

N'y a-il pas des objets C++ / des bibliothèques C qui le font déjà ?

D'une manière plus générale, je recherche un site d'exemples de codes / de tutoriaux pour wxWidgets ? A part le site principal (wxwidgets.org), qqn en connait-il un bon ? J'ai par exemple vu qu'il existait une classe wxHTMLParser (avec un nom pareil, je suppose qu'il y aurait moyen de faire de l'extraction d'URLs) mais les exemples d'utilisation n'abondent pas...
  • # libxml2 et ...

    Posté par  (site web personnel) . Évalué à 3.

    Pour extraire des liens d'une page HTML je te conseille d'utiliser la libxml2 avec ses bindings C++ et y'a plein de moyen différents de le faire : SAX, parcours du DOM, expression XPath...

    Pour l'exemple d'envoie de mail t'es mal barré puisque c'est un code pour Windows avec les Winsock.
    Mais bon l'envoie de mail c'est juste une connexion à un SMTP et après on suit le protocole SMTP, ça doit pas forcément être très compliqué à faire ...

    https://damien.pobel.fr

    • [^] # Re: libxml2 et ...

      Posté par  (site web personnel) . Évalué à 2.

      > d'utiliser la libxml2

      Ce qui implique d'avoir du XHTML, non ?
      Si tu as du HTML (potentiellement tout pourri), est-ce que ça marche toujours ?

      > ça doit pas forcément être très compliqué à faire

      C'est bien ce que je me dis :-). D'où mon souhait de réutiliser, d'autres ayant dû être confrontés au problème avant moi. J'ai notamment croisé une classe wxMail dans Google, mais je n'ai jamais trouvé son code.
      • [^] # Re: libxml2 et ...

        Posté par  (site web personnel, Mastodon) . Évalué à 3.

        Ce qui implique d'avoir du XHTML, non ?

        Et valide qui plus est, sinon ton parser XML adieu.
        • [^] # Re: libxml2 et ...

          Posté par  (site web personnel) . Évalué à 2.

          Il me semblait bien...

          J'ai un collègue qui utilise ce genre de truc, il doit utiliser un convertisseur HTML -> XHTML écrit en Java mais il paraît que ça n'est pas trop ça au niveau des résultats.
      • [^] # Re: libxml2 et ...

        Posté par  (site web personnel) . Évalué à 3.

        euh non, moi j'ai déjà fait l'analyse de document (justement récupérer des liens) dans un document non valide. Il y'a un mode spécial HTML qui tourne même sur des trucs non standards, bon après je sais jusqu'à quel point.

        https://damien.pobel.fr

  • # Bibliothèque regex

    Posté par  (site web personnel) . Évalué à 2.

    Pour les URLs, je me verrais bien utiliser des expressions régulières. Qqn peut-il me conseiller une bibliothèque C++ Open Source / du domaine public qui le fasse et qui soit multi-plate-forme (les classes fournies avec wxWidgets ne permettent apparamment pas de faire de l'extraction, uniquement de vérifier par rapport au patern ou de rempacer) ?
  • # utilisation

    Posté par  . Évalué à 1.

    C'est peut-être hors sujet mais je ne vois pas l'intérêt de faire ca si ce n'est pour SPAMmer...
    Sinon je sais le faire...
    • [^] # Re: utilisation

      Posté par  . Évalué à 2.

      il se justifie là: http://forum.hardware.fr/hardwarefr/Programmation/sujet-54627-1.htm(...)
      ou alors c'est une coïncidence :)
      donc => flux RSS
      • [^] # Re: utilisation

        Posté par  (site web personnel) . Évalué à 2.

        Ce n'est pas une coincidence, non :-).

        Par contre, l'extraction des URLs, je ne compte pas l'utiliser sur des flux RSS mais bien sur des fichiers HTML. Je réfléchis en fait à un outil de veille sur Internet, sous licence libre.

        Quant à ma demande sur l'envoi de mail, c'est pour pouvoir faire un crawler qui m'alertera / alertera les personnes _qui l'ont demandé_ de la modification d'une page Internet.

        Il ne s'agit en aucun cas de spammer ! Si je voulais spammer, je prendrais Worldcast pour l'envoi et AddPicker pour pomper les adresses mail, pas besoin de redévelopper quoi que ce soit pour ça.
        • [^] # Re: utilisation

          Posté par  (site web personnel) . Évalué à 2.

          J'oubliais une chose pour l'aspect mail.
          Je pense depuis longtemps au développement d'un outil libre de bulk mailing de type Worldcast. Ca me permettrait de remplacer le logiciel propriétaire (Worldcast) que j'utilise pour envoyer ma newsletter (_aux personnes qui l'ont demandée_ => pas de spam !).

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.