Lien BrokenArXiv: How Often Do LLMs Claim To Prove False Theorems?

Posté par thoasm le 20 mars 2026 à 21:20.

Étiquettes :

2

20

mar.

2026

https://matharena.ai/brokenarxiv/

# Résumé

Posté par pulkomandy (site web personnel, Mastodon) le 21 mars 2026 à 00:04. Évalué à 7 (+4/-0).
On demande à des LLM d'essayer de prouver des théorèmes qui sont faux.

Le meilleur modèle arrive à répondre que le théorème est faux dans environ 40% des cas. Et encore, si on pose plusieurs fois la question, de temps en temps il peut ne pas voir le problème, donc il y a seulement 20% des cas ou le problème est détecté de façon fiable.

Les autres LLM sont encore plus à la ramasse, avec un qui atteint un tout petit score de 3%.

Ceci avec une évaluation relativement généreuse:
- On ne vérifie pas si le raisonnement pour prouver que le théorème est faux est correct. Le modèle peut donc gagner des points avec un raisonnement mathématique foireux ou sur un coup de chance.
- Des points partiels sont accordés si le modèle choisit de modifier silencieusement la question posée pour obtenir un théorème qui est effectivement vrai, et prouver ce dernier.
Bref: ne demandez pas à votre LLM de prouver un théorème, sauf si vous êtes déjà absolument sûr qu'il existe bien une preuve.
Répondre
- [^] # Re: Résumé
  
  Posté par Gil Cot ✔ (site web personnel, Mastodon) le 21 mars 2026 à 20:16. Évalué à 3 (+1/-0).
  
  Tiens, un lien qui pourrait intéresser Laurent dont les statistiques perso sont différentes.
  
  “It is seldom that liberty of any kind is lost all at once.” ― David Hume
  
  Répondre

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.