Journal Un filtre de fil RSS...

Posté par  (site web personnel) .
Étiquettes :
0
22
mar.
2006
Il serait intéressant d'intégrer un système de sélection dans les agrégateurs de fils RSS.
Généralement, les sites proposent plusieurs fils RSS : un englobant tout le site, et un fil par rubrique voir sous-rubrique / thématique, pour suivre une partie plus ciblée d'un site.
Mais plus le temps passe et plus on accumule de fils RSS que l'on suit, comme on accumulait les liens en Marques Pages ou Favoris, que l'on triait ensuite en catégorie, sous catégorie... On garde l'adresse du site en se disant que ça pourra resservir un jour. Alors que si l'on tape quelques mots clefs dans un bon moteur de recherche, on retrouve ce site plus vite que via une navigation dans ce labyrinthe qu'est devenu les marques pages. Firefox, Thunderbird ou autre permettent de suivre les actualités de différents sites via des fils RSS, mais pour un fil donnée, dans Thunderbird par exemple, c'est l'ensembles des articles de ce fils qui sont proposés.

Plus le temps passe, plus les fils RSS s'accumulent. Le titre des articles publiés est alors déterminant : au premier coup d'oeil, soit le titre accroche, intrigue, questionne ou réveille la curiosité. Sinon, par manque de temps, l'article est zappé : pas le temps de le lire aujourd'hui. Et le lendemain apportant son nouveau lot quotidien de messages, l'article ne sera jamais lu. Parfois, on parcourt le message en diagonale, au cas où. Et on le lit ou on l'abandonne...

Combien de temps à t-on perdu à sélectionner l'intérêt (très subjectif) du message? Quelques dixièmes de secondes. Mais multiplié par X...

C'est là qu'intervient un filtre des messages des fils RSS. Sur le principe des filtres anti-spam, il serait possible de valider certains articles comme l'intéressant et en sélectionner d'autres comme non intéressant. Jour après jour, on revalide, ôte de la corbeille ceux qui y ont été mis alors que l'on aurait voulu les lire (et en profite alors pour les lire) et on y glisse ceux que non ne souhaite pas lire. En très peu de temps, le logiciel ne garde que des articles qui nous intéresse "vraiment". Le temps investit dans la sélection des articles intéressant et non intéressant n'est pas plus long que la sélection précédente. Sauf que dans ce cas, elle s'automatise peu à peu... jusqu'à devenir automatique est quasi parfaite.

Une future fonctionnalité à intégrer dans les logiciels?

Rq : cette idée est une idée libre (sous Licence GPL), elle est donc réutilisable par toute personne qui aurait du temps et le savoir faire pour coder cette fonctionnalité, en tant qu'extension de Thunderbird ou Firefox par exemple.
  • # idée GPL

    Posté par  (site web personnel) . Évalué à 5.

    > cette idée est une idée libre (sous Licence GPL)

    J'espère que c'est ironique parce qu'avec tout le foin qui est fait sur ce site pour dire qu'une idée n'est pas brevetable mais qu'elle appartient à tout le monde, il y en a encore qui veulent mettre une licence sur des idées ?
    • [^] # Re: idée GPL

      Posté par  (site web personnel) . Évalué à -1.

      Bien évidemment que c'était ironique. C'était une sorte de clin d'oeil...
      C'est avec joie que j'utiliserai un logiciel qui utiliserait cette idée, à la restriction près que ce logiciel devra être libre...
  • # Lectures passées

    Posté par  . Évalué à 4.

    Je me souviens avoir lu un article dans The Perl Journal où l'auteur (Simon Cozens) avait développé un petit outil lui permettant de filtrer le contenu de ses fils RSS. Je pense également que le sujet fait est traité également dans un bouquin d'O'Reilly, Advanced Perl Programming, toujours de Simon Cozens (chapitre traitant plus généralement du traitement automatique de la langue).
  • # Pas compris

    Posté par  . Évalué à 2.


    sauf que dans ce cas, elle s'automatise peu à peu... jusqu'à devenir automatique est quasi parfaite.


    L'idée est interessante mais comment le logiciel apprend à sélectionner les bons articles.
    Avec un filtre anti-spam, tu rajoutes des adresses proscrites et ca concerne tous les mails en provenance de ladite adresse.

    Là tu selectionnes les articles, mais sur quels critères tu te bases pour qu'il automatise le classement des nouveaux articles ?
    • [^] # Re: Pas compris

      Posté par  (site web personnel) . Évalué à 3.

      La plupart des filtres anti-spam récents se basent sur le contenu des mails et pas sur les adresses pour faire le tri. Pour un tel filtre, se baser sur le contenu d'un mail ou le contenu d'un billet de blog, ils ne verront même pas la différence.
      • [^] # Re: Pas compris

        Posté par  . Évalué à 3.

        Je comprends bien mais determiner si un mail est un spam n'est pas la même chose que filtrer une url ou une entrée RSS.
        Pour apprendre au filtre (celui que je connais) que des mails ne t'intéressent pas tu bannis l'adresse.
        Pour un article RSS tu bannis quoi ?
        des tags comme proposé plus bas
        des urls, des auteurs, ... ?
        • [^] # Re: Pas compris

          Posté par  (site web personnel) . Évalué à 4.

          > Pour apprendre au filtre (celui que je connais) que des mails ne
          > t'intéressent pas tu bannis l'adresse.

          Justement non. Pour apprendre aux filtres que je connais (evolution, spamassassin*, thunderbird, etc.) tu donnes le mail que tu considères comme spam, lui indexe le contenu (pas l'adresse ou le routage) et le classe comme spam. Plus tard il reconnait si c'est un spam ou pas via ce qu'ils appellent un filtre bayesien. En gros, si j'ai bien compris, ça calcule la proximité du contenu à tester avec ce qui a déjà été qualifié comme spam ou non spam.

          (* : oui, spamassassin fait bien plus que ça mais sa phase d'apprentissage ne fonctionne que sur filtre bayesien, le reste est fixe dans sa configuration)

          Résultat je ne bannis pas l'auteur ou les tags, je mesure simplement via un outil fait pour si le contenu est plus similaire à ce que j'ai déjà qualifié comme "utile" ou plus similaire à ce que j'ai déjà qualifié comme "inutile". Ca demande un apprentissage, de passer parfois dans la boite "inutile" pour repecher les mauvaise classifications mais dans l'ensemble c'est comme ça que fonctionnent les clients mails récents et c'est plutot pas mal à l'utilisation.
  • # Filtrage de RSS par tags

    Posté par  . Évalué à 1.

    Du filtrage de RSS par tags (avec opérateurs):
    http://eigenclass.org/hiki.rb?richer+RSS+selection+expressio(...)

    Faut connaitre les tags qui t'interessent par contre.
    • [^] # Re: Filtrage de RSS par tags

      Posté par  . Évalué à 3.

      Si je comprend bien le filtrage est fait au niveau du serveur pas du client.
      Il faut donc que tous les serveurs de flux RSS visités implémentent cette fonctionnalité.

      L'idée ca serait plutôt que le client RSS filtre les articles récupèrés et les classent en fonction des préférences de l'utilisateur.
      Par contre, on pourrait s'inspirer de l'algèbre proposée par ce site.
  • # idee serveur rss.

    Posté par  (site web personnel) . Évalué à 1.

    Je cherche une sorte de service qui me enregistre a temps regulier (voir meme s'adapter sur le rythme de diffusion sur le RSS ) et le principal pouvoir creer des filtres virtuel qui pourrait etre eux meme accessible via un RSS.

    Le tout serait heberger sur un serveur possederait une interface (RSS ?) pour faire des recherches, A la difference de delicious la recherche ne se porterait pas sur des tags existant mais bien sur le contenu des articles eux meme.

    Pourquoi ? en faite j'utilise deja les blogs pour rechercher des informations techniques et m'en servir en tant que base de donne pour des references futures. Malheuresement liferea ou akregator (encore plus) devienent de moins en moins rapide et utilisent de plus en plus de memoire, akregator est meme inutilisable, (j'avais une moyen de 2 000 a 5000 nouveau article par jour en moyenne). Ces meme articles ont des liens entre eux qui pourraient facilement etre trouve, voir dessiner un arbre (bon la je sais je m'emporte). Une autre fonctionnalite interressante serait de pouvoir retrouver une modification de l'URL quand le flux est plus la ou l'enlever si disparu totalement parce que les 404 ca devient ennuyant.

    Le pied serait egalement d'avoir une fonction spider qui permet de referencer les liens sur des blogs du meme theme qui pourrait avoir des articles tout aussi interressante que le blog d'origine.

    L'interet d'acceder les RSS via des RSS , c'est la mobilite, j'aimerai pouvoir acceder depuis le boulot, mon portable, et ma autre PC aux meme RSS. (encore mieux pour ceux qui ont du multiboot)

    Si quelqu'un connait quelque chose de similaire (GPL /BSD/Licence Libre/PasdeTrollJeSuisOuvertATout), je peux apporter ma contribution pour apporter ces fonctionnalites.

    http://www.theatre-eibel.fr http://www.isc2chapter-yorkshire.co.uk

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.