Faire un don ! | | style | statistiques | contactez-nous | plan | lettre d'information

Journal : Un filtre de fil RSS...

Posté par genma (page perso, ) le 22 mars 2006
Il serait intéressant d'intégrer un système de sélection dans les agrégateurs de fils RSS.
Généralement, les sites proposent plusieurs fils RSS : un englobant tout le site, et un fil par rubrique voir sous-rubrique / thématique, pour suivre une partie plus ciblée d'un site.
Mais plus le temps passe et plus on accumule de fils RSS que l'on suit, comme on accumulait les liens en Marques Pages ou Favoris, que l'on triait ensuite en catégorie, sous catégorie... On garde l'adresse du site en se disant que ça pourra resservir un jour. Alors que si l'on tape quelques mots clefs dans un bon moteur de recherche, on retrouve ce site plus vite que via une navigation dans ce labyrinthe qu'est devenu les marques pages. Firefox, Thunderbird ou autre permettent de suivre les actualités de différents sites via des fils RSS, mais pour un fil donnée, dans Thunderbird par exemple, c'est l'ensembles des articles de ce fils qui sont proposés.

Plus le temps passe, plus les fils RSS s'accumulent. Le titre des articles publiés est alors déterminant : au premier coup d'oeil, soit le titre accroche, intrigue, questionne ou réveille la curiosité. Sinon, par manque de temps, l'article est zappé : pas le temps de le lire aujourd'hui. Et le lendemain apportant son nouveau lot quotidien de messages, l'article ne sera jamais lu. Parfois, on parcourt le message en diagonale, au cas où. Et on le lit ou on l'abandonne...

Combien de temps à t-on perdu à sélectionner l'intérêt (très subjectif) du message? Quelques dixièmes de secondes. Mais multiplié par X...

C'est là qu'intervient un filtre des messages des fils RSS. Sur le principe des filtres anti-spam, il serait possible de valider certains articles comme l'intéressant et en sélectionner d'autres comme non intéressant. Jour après jour, on revalide, ôte de la corbeille ceux qui y ont été mis alors que l'on aurait voulu les lire (et en profite alors pour les lire) et on y glisse ceux que non ne souhaite pas lire. En très peu de temps, le logiciel ne garde que des articles qui nous intéresse "vraiment". Le temps investit dans la sélection des articles intéressant et non intéressant n'est pas plus long que la sélection précédente. Sauf que dans ce cas, elle s'automatise peu à peu... jusqu'à devenir automatique est quasi parfaite.

Une future fonctionnalité à intégrer dans les logiciels?

Rq : cette idée est une idée libre (sous Licence GPL), elle est donc réutilisable par toute personne qui aurait du temps et le savoir faire pour coder cette fonctionnalité, en tant qu'extension de Thunderbird ou Firefox par exemple.

> Lire le journal (10 commentaires, moyenne: 2,5).  

Vous avez demandé le commentaire #694547.

Pas compris

Posté par golum () le 22/03/2006 à 12:29. (lien). Évalué à 2.


sauf que dans ce cas, elle s'automatise peu à peu... jusqu'à devenir automatique est quasi parfaite.


L'idée est interessante mais comment le logiciel apprend à sélectionner les bons articles.
Avec un filtre anti-spam, tu rajoutes des adresses proscrites et ca concerne tous les mails en provenance de ladite adresse.

Là tu selectionnes les articles, mais sur quels critères tu te bases pour qu'il automatise le classement des nouveaux articles ?

  • [^]Re: Pas compris

    Posté par Éric (Jabber id, page perso, ) le 22/03/2006 à 15:42. (lien). Évalué à 3.

    La plupart des filtres anti-spam récents se basent sur le contenu des mails et pas sur les adresses pour faire le tri. Pour un tel filtre, se baser sur le contenu d'un mail ou le contenu d'un billet de blog, ils ne verront même pas la différence.

    • [^]Re: Pas compris

      Posté par golum () le 22/03/2006 à 16:02. (lien). Évalué à 3.

      Je comprends bien mais determiner si un mail est un spam n'est pas la même chose que filtrer une url ou une entrée RSS.
      Pour apprendre au filtre (celui que je connais) que des mails ne t'intéressent pas tu bannis l'adresse.
      Pour un article RSS tu bannis quoi ?
      des tags comme proposé plus bas
      des urls, des auteurs, ... ?

      • [^]Re: Pas compris

        Posté par Éric (Jabber id, page perso, ) le 22/03/2006 à 17:14. (lien). Évalué à 4.

        > Pour apprendre au filtre (celui que je connais) que des mails ne
        > t'intéressent pas tu bannis l'adresse.

        Justement non. Pour apprendre aux filtres que je connais (evolution, spamassassin*, thunderbird, etc.) tu donnes le mail que tu considères comme spam, lui indexe le contenu (pas l'adresse ou le routage) et le classe comme spam. Plus tard il reconnait si c'est un spam ou pas via ce qu'ils appellent un filtre bayesien. En gros, si j'ai bien compris, ça calcule la proximité du contenu à tester avec ce qui a déjà été qualifié comme spam ou non spam.

        (* : oui, spamassassin fait bien plus que ça mais sa phase d'apprentissage ne fonctionne que sur filtre bayesien, le reste est fixe dans sa configuration)

        Résultat je ne bannis pas l'auteur ou les tags, je mesure simplement via un outil fait pour si le contenu est plus similaire à ce que j'ai déjà qualifié comme "utile" ou plus similaire à ce que j'ai déjà qualifié comme "inutile". Ca demande un apprentissage, de passer parfois dans la boite "inutile" pour repecher les mauvaise classifications mais dans l'ensemble c'est comme ça que fonctionnent les clients mails récents et c'est plutot pas mal à l'utilisation.