• # Habile !

    Posté par  . Évalué à 4 (+2/-0).

    Il fallait y penser.

    Seul le temps de traitement reste très en faveur du filtre Baysien.

    Discussions en français sur la création de jeux videos : IRC freenode / #gamedev-fr

  • # Je vérifie la date

    Posté par  (site web personnel) . Évalué à 3 (+1/-0).

    Ah non, c'est pas un poisson d'avril.

    git is great because linus did it, mercurial is better because he didn't

    • [^] # Re: Je vérifie la date

      Posté par  . Évalué à 2 (+0/-0).

      Oui, j'ai pensé exactement la même chose :)

    • [^] # Re: Je vérifie la date

      Posté par  . Évalué à 6 (+4/-0). Dernière modification le 08 juillet 2024 à 16:04.

      Utiliser un LLM pour faire de la classification de textes, ça me paraît pourtant pile dans la cible. "Pour une fois", serai-je tenté de dire.

      Cependant, il serait probablement plus efficace de ré-entrainer un petit modèle basé un modèle open source genre ollama ou mistral plutôt que de demander à un LLM généraliste.

      • [^] # Re: Je vérifie la date

        Posté par  (site web personnel) . Évalué à 5 (+4/-1).

        L'avantage potentiel d'utiliser un LLM généraliste est qu'il pourrait reconnaître particulièrement bien le contenu du spam qu'il aurait lui même engendré.

        Adhérer à l'April, ça vous tente ?

        • [^] # Re: Je vérifie la date

          Posté par  (site web personnel) . Évalué à 4 (+2/-0).

          L'avantage potentiel d'utiliser un LLM généraliste est qu'il pourrait reconnaître particulièrement bien le contenu du spam qu'il aurait lui même engendré.

          Ça me ferait bien chier que les mails que je reçois partent dans des LLM sur le "cloud" pour être détectés comme spam ou non.

          git is great because linus did it, mercurial is better because he didn't

      • [^] # Re: Je vérifie la date

        Posté par  (site web personnel, Mastodon) . Évalué à 6 (+3/-0).

        Utiliser un LLM pour faire de la classification de textes, ça me paraît pourtant pile dans la cible. "Pour une fois", serai-je tenté de dire.

        En effet. Pour une fois que cela est un usage/une expérimentation raisonnable d'une telle technologie! D'ailleurs, dans ce type d'usage, la classification d'email (ou de texte de manière générale) par du filtrage bayésien est aussi dans la catégorie "intelligence artificielle" (non, l'IA c'est pas juste les LLMs, quoiqu'en disent les djeunz!).

        Bon ceci étant, le résultat est très mauvais à ce stade. Quelqu'un parle de temps de traitement plus haut, mais c'est surtout la confiance dans le classement qui pêche! D'après le lien, même le plus coûteux modèle a faux 7% du temps, contre 3% pour le classement bayésien classique.

        Et en particulier, on parle de plus de 5% de faux positifs pour le LLM contre moins de 1% pour le filtre bayésien. Pour rappel, les faux positifs sont la partie la plus problématique du filtrage anti-spam. Autant avoir quelques spams qui rentrent par erreur dans la boîte aux lettres est juste un peu ennuyeux, autant on veut idéalement aucun vrai message filtré par erreur en spam (pour peu que ce soit un message très important qu'on risque de louper!).

        À voir avec des modèles entraînés exprès en effet…

        Enfin bon, en gros, c'est pas encore aujourd'hui qu'on va passer à ce type de filtrage. En considérant le coût temporel additionnel mais aussi le coût d'entraînement de ces modèles, il faudrait vraiment qu'un filtrage par LLM soit proche de 0% de faux positifs (et pas trop de faux négatifs non plus tant qu'à faire, même si ce point est moins grave dans la confiance accordée à l'outil) pour considérer changer de système.

        Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.