Forum Astuces.divers [Web] Les filtres de Liferea

Posté par  .
Étiquettes : aucune
0
8
août
2005

Liferea est un agrégateur de flux RSS, dans le genre de Straw ou Rol. Parmi ses fonctionnalités avancées, on trouve la possibilité d'appliquer des filtres sur les flux. Ça se passe dans la boite des propriétés d'un abonnement, onglet "Source du flux", puis cocher "Utiliser un filtre de conversion".



Qu'est-ce qu' un filtre ?

C'est une commande qui lit le flux d'origine sur son entrée standard et affiche un flux modifié sur sa sortie standard. Ça peut permettre bien des choses, comme on le constate d'un bref coup d'oeil sur ce dépôt :
http://kiza.kcore.de/software/snownews/snowscripts/extensions
(ouais, faut croire que ça marche pareil avec Snownews, un lecteur RSS mode texte, mais celui là je ne l'ai jamais essayé)



Par exemple, le filtre "Hardware.fr" permet de transformer la page HTML des news du site eponyme ( http://www.hardware.fr/html/news/ ) en un flux RSS bien complet, avec le texte des nouvelles et ses images (remplaçant avantageusement le flux officiel du site, qui ne propose que les intitulés des dépêches).



Pour des filtres moins complexes, on peut souvent se contenter d'une petite commande sed ("Stream EDitor"). Quelques exemples :

  • transformer les flux de LinuxFr.org pour qu'ils pointent les pages en HTTPS au lieu de HTTP :
    sed 's;\bhttp://\(linuxfr\.org\)\b;https://\1;g'


  • transformer les flux de packages.gentoo.org pour que les liens bugzilla et forum soient en HTTPS, et pour supprimer les grosses images de boite, moches, lourdes et inutiles :
    sed -e 's;<img class="pkgimg"[^>]*>;;' -e 's;\bhttp://\(bugs\|forums\)(\.gentoo\.org\)\b;https://\1\2;g'


  • supprimer une bannière d'entête quand elle est trop... erf, ouais, bon, les goût et les couleurs hein... mais genre celle de Toolinux.org :
    sed '\:<image>:,\:</image>:d'


Pour résumer, voilà le principe. N'hésitez pas à partager ici vos productions, ça peut intéresser des gens.



De manière assez similaire, Liferea accepte aussi d'exécuter une commande pour la récupération d'un flux, à la place de l'habituelle URL. Ça permet par exemple de récupérer des adresses HTTPS, le protocole n'étant sinon pas supporté par Liferea. Je vous renvoie à la FAQ de Liferea pour un exemple sur Gmail :
http://liferea.sourceforge.net/faq.htm

  • # errata

    Posté par  . Évalué à 2.

    Tiens, dans celle pour packages.gentoo.org, il manque un antislash devant la parenthèse ouvrante du milieu : 's;\bhttp://\(bugs\|forums\)\(\.gentoo\.org\)\b;https://\1\2;g'
  • # Filtre en awk pour Lolix

    Posté par  (site web personnel, Mastodon) . Évalué à 1.

    Le site http://fr.lolix.org/ ne propose pas de flux rss pour
    avoir les petites annonces dans un agrégateur. A la place,
    il fournit un backend texte, illisible par snownews.

    http://back.fr.lolix.org/backend.php3

    J'ai bricolé un filtre "kimarche", même si un puriste trouvera
    le code assez crade.

    http://tontonth.free.fr/filtre-lolix-rss.awk

    Hope que ça helpe.
    • [^] # Re: Filtre en awk pour Lolix

      Posté par  . Évalué à 3.

      N'étant pas un puriste en Awk, je trouve ton filtre très satisfaisant. On verra bien si ça helpe, mais en tout cas merci beaucoup.
  • # Niouzes DLFP : URLs clickables

    Posté par  . Évalué à 3.

    Récemment les URLs ont été ajoutées au RSS des dépêches. Par contre elle sont en pur texte, pas clickables. Donc dans mon sed sur ce flux, j'ai ajouté une autre commande pour corriger ça :
    's#^\(\(http\|ftp\|https\)://[^ ]\+\)\(\&lt;br /\&gt;\)$#\&lt;a href=\&quot;\1\&quot;\&gt;\1\&lt;a/\&gt;\3#'

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.