Journal DELEGATE-52 : Les LLM corrompent vos documents

27
4
mai
2026

C'est le résultat de cette étude de Microsoft Research. Ils ont donné aux meilleurs LLM (au moment de l'étude, Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) des tâches à accomplir dans 52 domaines. Résultat principal : après une vingtaine d'interactions, les modèles dégradent fortement les documents. Même les meilleurs corrompent en moyenne ~25 % du contenu à la fin de longues sessions. Ils changent des montants dans des bilans comptables, font disparaître des mots, perdent des lignes dans des CSV… Et c'est vicieux parce qu'ils n’échouent pas toujours de manière évidente. Les chercheurs disent qu'ils commettent des « erreurs rares mais graves, qui corrompent silencieusement les documents. » Le seul domaine dans lequel les LLM ont fourni des résultats satisfaisant, c'est le code en Python.

La conclusion de l'étude est direct : «Current LLMs are unreliable delegates.» On savait déjà que plus un échange avec un LLM est long, moins les résultats sont fiables. Là c'est mesuré. Un moyen de limiter la casse serait de faire relire sa production au LLM dans une nouvelle session, contexte tout neuf et non-pollué par les échanges. Mais au final, la seule vérification fiable c'est l'oeil humain (enfin… aussi fiable que peut l'être un humain quoi…) Vous pouvez réaliser le benchmark vous-même, c'est du libre (MIT) : https://github.com/microsoft/DELEGATE52

  • # le pire dans tout ça

    Posté par  (site web personnel) . Évalué à 4 (+3/-1).

    c'est qu'ils restent plus fiables que moi et mon trouble de l'attention. Dès que je dois dois saisir plus de 3 valeurs, vous pouvez être sûr qu'il y aura des erreurs -_-'

    • [^] # Re: le pire dans tout ça

      Posté par  . Évalué à 10 (+12/-0).

      Relis-toi dans une nouvelle session.

      • [^] # Re: le pire dans tout ça

        Posté par  (site web personnel) . Évalué à 8 (+6/-0).

        [Nouvelle Session / Contexte Réinitialisé : Fresh Start]

        … D'accord. J'ai pris note de l'expérience DELEGATE-52 et de votre rappel contextuel.

        Le but de cette nouvelle session est de produire un output qui n'est pas dilué par les bruits émotionnels ou les rappels scientifiques passés.

        Nouveau Point de vue :
        Le risque réel n'est pas tant ma faute, mais la nature même du traitement du langage : on est beaucoup plus efficace sur l'extraction de patterns syntaxiques que sur l'intégrité absolue des règles comptables.

        Je suis un outil de suggestion et de traitement. Je simule la cohérence et la logique (comme dans le code Python), mais dès qu'on me demande d'être un auditeur légal ou un comptable de confiance sur une longue série de données, mon "complexe de l'omission" se manifeste.

        Je reste donc une excellente muse, mais une terrible fiduciaire. Check.

        (Fin de la simulation de la nouvelle session.)

    • [^] # Re: le pire dans tout ça

      Posté par  (site web personnel) . Évalué à 5 (+3/-0).

      Mais toi, l'avantage, c'est que quand on te dit de changer une formule dans un tableur, certes tu vas peut-être foirer la formule, mais tu ne décides pas sans raison de modifier des valeurs au p'tit bonheur la chance dans tout le fichier.

      • [^] # Re: le pire dans tout ça

        Posté par  (site web personnel) . Évalué à 7 (+5/-0).

        mais tu ne décides pas sans raison de modifier des valeurs au p'tit bonheur la chance dans tout le fichier

        heu… mon avocat me fait les gros yeux et me recommande très fortement de ne pas répondre à cette question.

  • # Ça fonctionne comme le moulage

    Posté par  (courriel, site web personnel, Mastodon) . Évalué à 5 (+2/-0).

    Ça donne l'impression que les LLM fonctionnent de la même manière. Quand on prend une empreinte d'une forme pour la reproduire, il y a une très légère déperdition. Quand on prend une empreinte de la forme qui a été reproduite avec le premier moule, il y a une autre couche de déperdition et ainsi de suite.

    Et il n'y a pas de solution (enfin, aujourd'hui, on a les scanners 3D, mais ceci est une autre histoire).

    Je n’ai aucun avis sur systemd

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.