Lien AI Cannot Self Improve and Math behind PROVES IT!

Posté par thoasm le 28 avril 2026 à 11:19.

Étiquettes :

avr.

2026

https://smsk.dev/2026/04/26/ai-cannot-self-improve-and-math-behind-proves-it/

# Fil mastodon qui discute le papier

Posté par thoasm le 28 avril 2026 à 12:38. Évalué à 6 (+4/-1).

Le point principal du papier n'est pas inattendu évidemment, c'est juste une preuve mathématique que faire réapprendre un LLM à partir de données générées par un ou d'autres LLM mène inévitablement à un effondrement. C'est valable aussi si la proportion de "nouveauté" d'information correcte injectée à chaque réapprentissage est trop faible.

Ce fil Mastodon discute de tout ça.

Je note notamment ce commentairece commentaire de Dan Piponi qui pointe que les modèles récent n'ont pas pour but de reproduire la distribution d'apprentissage initial mais aussi de réaliser des tâches hors distribution, et cite le papier
From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence, qui discute entre autre de comment maximiser l'utilité du modèle à ressource computationnelle contrainte étant donné les jeux d'apprentissages, en disant dépasser les pures notion de théorie de la complexité de l'information utilisées dans l'autre papier.

Répondre
- [^] # Re: Fil mastodon qui discute le papier
  
  Posté par Moonz le 28 avril 2026 à 19:51. Évalué à 7 (+5/-0).
  Le point principal du papier n'est pas inattendu évidemment, c'est juste une preuve mathématique que faire réapprendre un LLM à partir de données générées par un ou d'autres LLM mène inévitablement à un effondrement.
  
  Le post dit : "AI Cannot Self Improve and Math behind PROVES IT!".
  
  Ce qui ne découle pas du tout du résultat du papier. Pour être cash : de la désinformation.
  
  Dans le papier en lui-même, pas grand chose de nouveau effectivement : le phénomène de "model collapse" est vieux, étudié depuis un moment maintenant.
  
  Pour faire simple, si tu fais (schematiquement) while True: model = train(synthetic_data(model)), tu es en plein dans le model collapse. Ce nouveau papier le montre formellement, ce qui est un résultat intéressant mathématiquement/théoriquement. En pratique, aucun intérêt : les données synthétiques ne sont pas utilisées de la sorte, mais plutôt comme ça : while True: model = train(initial_nonsynthetic_data + synthetic_data(model)). Et https://arxiv.org/abs/2404.01413 montre que cette méthode évite le model collapse.
  
  Pire, de manière moderne, on l’utilise plutôt comme ça :
```
def verified_synthetic_data(model):
  verified_data = []
  while True:
    (problem, verifier) = create_problem_and_verifier(model)
    (trace, solution) = solve_problem(model)
    if verifier(solution) == "correct":
      verified_data.push(trace)
  return verified_data

while True: model = train(initial_nonsynthetic_data + verified_synthetic_data(model))
```
  (tous mes while True signifient : "pour un nombre d'itérations décidées par le développeur)
  
  Et dans ce contexte, le modèle peut clairement "découvrir" de "nouvelles" informations qui améliorent la qualité du modèle suivant (problème ouvert : définir ça en termes rigoureux), pour peu que le choix du problème soit non-trivial et judicieux (résolution plus difficile que vérification) et que le verifier soit honnête et correct (et le commentaire que tu pointes note même qu’il n’est pas certain qu’il y ait besoin d’aller aussi loin qu’un couple generator/solver/verifier, juste générer un programme non-trivial, le lancer, et ajouter sa sortie génère des données hors-distribution et devrait éviter le modèle collapse. Je n’ai pas connaissance de papier étudiant si ça permet réellement des gains de performance, ceci dit).
  
  Quelques références :
  et cite le papier From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence, qui discute entre autre de comment maximiser l'utilité du modèle à ressource computationnelle contrainte étant donné les jeux d'apprentissages, en disant dépasser les pures notion de théorie de la complexité de l'information utilisées dans l'autre papier.
  
  Je j’avais pas vu passer celui là, extrêmement intéressant, merci pour la référence. Sans y répondre directement, ça fait écho à cette revue de littérature d’il y a quelques jours : https://www.lesswrong.com/posts/zcGmdQHX66NhC69v6/the-other-paper-that-killed-deep-learning-theory
  Répondre
  - [^] # Re: Fil mastodon qui discute le papier
    
    Posté par thoasm le 29 avril 2026 à 12:03. Évalué à 4 (+2/-1). Dernière modification le 29 avril 2026 à 12:06.
    
    On peut pas non plus imaginer augmenter les données d'apprentissage à l'infini, c'est raisonnable d'introduire une limite à la quantité de données. Dans ce contexte, le papier du lien implique une perte de diversité dans la distribution initiale si les données synthétiques remplacent progressivement les donnée.
    
    La méthode de génération des données synthétiques importe peu dans les hypothèses du papier. Et par exemple ça semble évident que si le modèle émet des hypothèses scientifiques et crée des expériences, à la manière d'un scientifique, il n'a pas la possibilité de les tester, il lui faudrait de vraies données pour réellement avancer.
    
    Dernière chose, ce que le papier veut réfuter c'est un peu l'émergence d'une AGI simplement par réapprentissage et croissance exponentielle rapide des performances dans un cadre "on reste dans les datacenter en circuit fermé" je pense, là ou tu peux avoir des boucles rapides.
    
    Répondre
    - [^] # Re: Fil mastodon qui discute le papier
      
      Posté par Moonz le 29 avril 2026 à 20:04. Évalué à 2 (+0/-0).
      Et par exemple ça semble évident que si le modèle émet des hypothèses scientifiques et crée des expériences, à la manière d'un scientifique, il n'a pas la possibilité de les tester, il lui faudrait de vraies données pour réellement avancer
      
      Il a totalement la possibilité de les tester, pour peu que le domaine s’y prête.
      
      Mathématiques
      
      Programmation (puis-je trouver un meilleur algorithme meilleur que tous ceux connus pour le problème X ?)
      
      Trouver de nouvelles hypothèses, les vérifier sur des données existantes (je sais que l’image d’épinal du physicien c’est d’expliquer de nouvelles données avec de nouveaux domaines, mais dans la réalité, c’est beaucoup de « expliquer d’anciennes données avec de meilleurs modèles »)
      
      Par exemple, un modèle actuel peut très bien se lancer une tâche : « puis-je créer un modèle spécialisé tenant en 1B de paramètres et qui serait à l’état de l’art pour un benchmark public choisi (par exemple FrontierMath) ». Besoin d’aucune nouvelle donnée, tout peut être fait localement.
      
      Dernière chose, ce que le papier veut réfuter c'est un peu l'émergence d'une AGI simplement par réapprentissage et croissance exponentielle rapide des performances dans un cadre "on reste dans les datacenter en circuit fermé" je pense, là ou tu peux avoir des boucles rapides.
      
      Tu as circuit fermé dans le sens « le modèle et ses propres sorties, sans aucune donnée auxiliaire/outils utilisables localement ». C’est le sens du papier, mais ce n’est pas le sens généralement entendu de « l'émergence d'une AGI simplement par réapprentissage et croissance exponentielle rapide des performances ».
      
      Et tu as circuit fermé dans le sens « le modèle et son environnement comprenant des données auxiliaires (par exemple ses données brutes d’entraînement) et des outils locaux (Python, un compilateur C…). Le papier ne s’applique pas, et on est bien plus proche du sens généralement de « self-improvement » (et encore, self-improvement très souvent autorise le modèle à communiquer à l’extérieur).
      Répondre
  - [^] # Re: Fil mastodon qui discute le papier
    
    Posté par Pierre-Alain TORET (Mastodon) le 29 avril 2026 à 16:23. Évalué à 2 (+1/-0).
    
    Intéressant, est-ce que tu pourrais donner un peu plus d'explications à propos de ce que sont initial_nonsynthetic_data et synthetic_data(model) pour ceux qui suivent ça de loin ?
    
    Merci à toi :)
    
    Répondre
    - [^] # Re: Fil mastodon qui discute le papier
      
      Posté par thoasm le 29 avril 2026 à 17:04. Évalué à 4 (+2/-1).
      
      les données initiales non synthétiques c'est le jeu de donnée d'apprentissage initial. Par exemple une banque d'image, ou un ensemble de texte écrits par des humains, utilisé pour l'apprentissage du modèle.
      
      synthetic_data(model) c'est des données synthétiques, c'est à dire générées en utilisant le modèle, d'une manière ou d'une autre. Dans son algorithmes ces données générées en utilisant le modèle sont ajoutées au jeu de donnée initial pour faire apprendre la génération suivante de modèle.
      
      Répondre
      - [^] # Re: Fil mastodon qui discute le papier
        
        Posté par mahikeulbody le 29 avril 2026 à 20:41. Évalué à 3 (+1/-0).
        
        Comment on reconnaît les textes écrits par des humains des textes écrits par des IA ? Si j'ai bien compris, les boites d'IA scannent tout internet sans filtre (et souvent sans autorisation mais c'est un autre sujet) alors à moins qu'elles aient une "photo" de l'Internet d'il y a 3 ou 4 ans, je ne vois pas comment elles arrivent à établir ces données initiales non synthétiques.
        
        Répondre
        
        [^] # Re: Fil mastodon qui discute le papier
        
        Posté par thoasm le 01 mai 2026 à 14:27. Évalué à 3 (+1/-1).
        
        Faut faire attention, je pense que le scraping constants c'est pas forcément pour constituer les jeux de données, il doit y avoir une part d'agents qui font des recherches sur le net pour faire des synthèses en fonction des requêtes des utilisateurs, et intuitivement ça doit être largement plus ce style de requêtes qu'on voit que celles pour la constitution de jeux de données.
        
        Sinon je crois qu'il existe quand même des modèles qui détectent les générations. Je sais pas s'ils sont utilisés, mais je pense que maintenant la qualité du jeu de données et que des filtres sophistiqués sont mis en œuvre pour scorer et filtrer : https://www.catalyzex.com/paper/lp-data-pipeline-lightweight-purpose-driven
        
        Qui peuvent eux même utiliser des modèles pour détecter des trucs. Il existe des modèles qui sont spécifiquement entraînés pour détecter les textes générés par d'autres modèles : https://github.com/TAL-auroraX/ResoFilter (on sait que les modèles ont des biais ou des tics qu'il est possible de détecter par apprentissage spécifique, on doit pouvoir faire ça pour les modèles principaux)
        
        Répondre

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.