• # Résumé

    Posté par  (site web personnel, Mastodon) . Évalué à 3 (+0/-0).

    On demande à des LLM d'essayer de prouver des théorèmes qui sont faux.

    Le meilleur modèle arrive à répondre que le théorème est faux dans environ 40% des cas. Et encore, si on pose plusieurs fois la question, de temps en temps il peut ne pas voir le problème, donc il y a seulement 20% des cas ou le problème est détecté de façon fiable.

    Les autres LLM sont encore plus à la ramasse, avec un qui atteint un tout petit score de 3%.

    Ceci avec une évaluation relativement généreuse:

    • On ne vérifie pas si le raisonnement pour prouver que le théorème est faux est correct. Le modèle peut donc gagner des points avec un raisonnement mathématique foireux ou sur un coup de chance.
    • Des points partiels sont accordés si le modèle choisit de modifier silencieusement la question posée pour obtenir un théorème qui est effectivement vrai, et prouver ce dernier.

    Bref: ne demandez pas à votre LLM de prouver un théorème, sauf si vous êtes déjà absolument sûr qu'il existe bien une preuve.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.