Lien OpenAI GPT dans rspamd

Posté par Glandos le 08 juillet 2024 à 11:26.

Étiquettes :

juil.

2024

https://rspamd.com/misc/2024/07/03/gpt.html

# Habile !

Posté par jseb le 08 juillet 2024 à 12:02. Évalué à 4.

Il fallait y penser.

Seul le temps de traitement reste très en faveur du filtre Baysien.

Discussions en français sur la création de jeux videos : IRC libera / #gamedev-fr
# Je vérifie la date

Posté par David Demelier (site web personnel) le 08 juillet 2024 à 14:01. Évalué à 3.

Ah non, c'est pas un poisson d'avril.

AI is a mental disorder
- [^] # Re: Je vérifie la date
  
  Posté par Glandos le 08 juillet 2024 à 14:23. Évalué à 2.
  
  Oui, j'ai pensé exactement la même chose :)
- [^] # Re: Je vérifie la date
  
  Posté par steph1978 le 08 juillet 2024 à 16:02. Évalué à 6. Dernière modification le 08 juillet 2024 à 16:04.
  
  Utiliser un LLM pour faire de la classification de textes, ça me paraît pourtant pile dans la cible. "Pour une fois", serai-je tenté de dire.
  
  Cependant, il serait probablement plus efficace de ré-entrainer un petit modèle basé un modèle open source genre ollama ou mistral plutôt que de demander à un LLM généraliste.
  - [^] # Re: Je vérifie la date
    
    Posté par Pol' uX (site web personnel) le 08 juillet 2024 à 17:13. Évalué à 5.
    
    L'avantage potentiel d'utiliser un LLM généraliste est qu'il pourrait reconnaître particulièrement bien le contenu du spam qu'il aurait lui même engendré.
    
    Adhérer à l'April, ça vous tente ?
    - [^] # Re: Je vérifie la date
      
      Posté par David Demelier (site web personnel) le 08 juillet 2024 à 17:15. Évalué à 4.
      
      L'avantage potentiel d'utiliser un LLM généraliste est qu'il pourrait reconnaître particulièrement bien le contenu du spam qu'il aurait lui même engendré.
      
      Ça me ferait bien chier que les mails que je reçois partent dans des LLM sur le "cloud" pour être détectés comme spam ou non.
      
      AI is a mental disorder
      - [^] # Re: Je vérifie la date
        
        Posté par Pol' uX (site web personnel) le 08 juillet 2024 à 17:23. Évalué à 5.
        
        Mon propos était sarcastique.
        
        Adhérer à l'April, ça vous tente ?
        
        [^] # Re: Je vérifie la date
        
        Posté par David Demelier (site web personnel) le 09 juillet 2024 à 08:51. Évalué à 3.
        
        Zut, ça paraissait tellement réel. Je m'en vais de ce pas réviser mon détecteur de second degré.
        
        AI is a mental disorder
  - [^] # Re: Je vérifie la date
    
    Posté par Jehan (site web personnel, Mastodon) le 08 juillet 2024 à 17:22. Évalué à 6.
    
    Utiliser un LLM pour faire de la classification de textes, ça me paraît pourtant pile dans la cible. "Pour une fois", serai-je tenté de dire.
    
    En effet. Pour une fois que cela est un usage/une expérimentation raisonnable d'une telle technologie! D'ailleurs, dans ce type d'usage, la classification d'email (ou de texte de manière générale) par du filtrage bayésien est aussi dans la catégorie "intelligence artificielle" (non, l'IA c'est pas juste les LLMs, quoiqu'en disent les djeunz!).
    
    Bon ceci étant, le résultat est très mauvais à ce stade. Quelqu'un parle de temps de traitement plus haut, mais c'est surtout la confiance dans le classement qui pêche! D'après le lien, même le plus coûteux modèle a faux 7% du temps, contre 3% pour le classement bayésien classique.
    
    Et en particulier, on parle de plus de 5% de faux positifs pour le LLM contre moins de 1% pour le filtre bayésien. Pour rappel, les faux positifs sont la partie la plus problématique du filtrage anti-spam. Autant avoir quelques spams qui rentrent par erreur dans la boîte aux lettres est juste un peu ennuyeux, autant on veut idéalement aucun vrai message filtré par erreur en spam (pour peu que ce soit un message très important qu'on risque de louper!).
    
    À voir avec des modèles entraînés exprès en effet…
    
    Enfin bon, en gros, c'est pas encore aujourd'hui qu'on va passer à ce type de filtrage. En considérant le coût temporel additionnel mais aussi le coût d'entraînement de ces modèles, il faudrait vraiment qu'un filtrage par LLM soit proche de 0% de faux positifs (et pas trop de faux négatifs non plus tant qu'à faire, même si ce point est moins grave dans la confiance accordée à l'outil) pour considérer changer de système.
    
    Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.