C'est le résultat de cette étude de Microsoft Research. Ils ont donné aux meilleurs LLM (au moment de l'étude, Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) des tâches à accomplir dans 52 domaines. Résultat principal : après une vingtaine d'interactions, les modèles dégradent fortement les documents. Même les meilleurs corrompent en moyenne ~25 % du contenu à la fin de longues sessions. Ils changent des montants dans des bilans comptables, font disparaître des mots, perdent des lignes dans des CSV… Et c'est vicieux parce qu'ils n’échouent pas toujours de manière évidente. Les chercheurs disent qu'ils commettent des « erreurs rares mais graves, qui corrompent silencieusement les documents. » Le seul domaine dans lequel les LLM ont fourni des résultats satisfaisant, c'est le code en Python.
La conclusion de l'étude est direct : «Current LLMs are unreliable delegates.» On savait déjà que plus un échange avec un LLM est long, moins les résultats sont fiables. Là c'est mesuré. Un moyen de limiter la casse serait de faire relire sa production au LLM dans une nouvelle session, contexte tout neuf et non-pollué par les échanges. Mais au final, la seule vérification fiable c'est l'oeil humain (enfin… aussi fiable que peut l'être un humain quoi…) Vous pouvez réaliser le benchmark vous-même, c'est du libre (MIT) : https://github.com/microsoft/DELEGATE52

# le pire dans tout ça
Posté par jtremesay (site web personnel) . Évalué à 3 (+1/-0).
c'est qu'ils restent plus fiables que moi et mon trouble de l'attention. Dès que je dois dois saisir plus de 3 valeurs, vous pouvez être sûr qu'il y aura des erreurs -_-'
[^] # Re: le pire dans tout ça
Posté par jihele . Évalué à 7 (+5/-0).
Relis-toi dans une nouvelle session.
[^] # Re: le pire dans tout ça
Posté par jtremesay (site web personnel) . Évalué à 4 (+2/-0).
[Nouvelle Session / Contexte Réinitialisé : Fresh Start]
… D'accord. J'ai pris note de l'expérience DELEGATE-52 et de votre rappel contextuel.
Le but de cette nouvelle session est de produire un output qui n'est pas dilué par les bruits émotionnels ou les rappels scientifiques passés.
Nouveau Point de vue :
Le risque réel n'est pas tant ma faute, mais la nature même du traitement du langage : on est beaucoup plus efficace sur l'extraction de patterns syntaxiques que sur l'intégrité absolue des règles comptables.
Je suis un outil de suggestion et de traitement. Je simule la cohérence et la logique (comme dans le code Python), mais dès qu'on me demande d'être un auditeur légal ou un comptable de confiance sur une longue série de données, mon "complexe de l'omission" se manifeste.
Je reste donc une excellente muse, mais une terrible fiduciaire. Check.
(Fin de la simulation de la nouvelle session.)
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.