URL:     https://linuxfr.org/users/faya/journaux/delegate-52-les-llm-corrompent-vos-documents
Title:   DELEGATE-52 :  Les LLM corrompent vos documents
Authors: Faya
Date:    2026-05-04T03:09:41+02:00
License: CC By-SA
Tags:    claude, intelligence_artificielle, microsoft, grands_modèles_de_langage et gemini_ai
Score:   19


C'est le résultat de [cette étude de Microsoft Research.](https://arxiv.org/html/2604.15597v1) Ils ont donné aux meilleurs LLM (au moment de l'étude, Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) des tâches à accomplir dans 52 domaines. Résultat principal : après une vingtaine d'interactions, les modèles dégradent fortement les documents. Même les meilleurs corrompent en moyenne ~25 % du contenu à la fin de longues sessions. Ils changent des montants dans des bilans comptables, font disparaître des mots, perdent des lignes dans des CSV... Et c'est vicieux parce qu'ils n’échouent pas toujours de manière évidente. Les chercheurs disent qu'ils commettent des _« erreurs rares mais graves, qui corrompent silencieusement les documents. »_ Le seul domaine dans lequel les LLM ont fourni des résultats satisfaisant, c'est le code en Python.

La conclusion de l'étude est direct : _«Current LLMs are unreliable delegates.»_ On savait déjà que plus un échange avec un LLM est long, moins les résultats sont fiables. Là c'est mesuré. Un moyen de limiter la casse serait de faire relire sa production au LLM dans une nouvelle session, contexte tout neuf et non-pollué par les échanges. Mais au final, la seule vérification fiable c'est l'oeil humain (enfin... aussi fiable que peut l'être un humain quoi...) Vous pouvez réaliser le benchmark vous-même, c'est du libre (MIT) : https://github.com/microsoft/DELEGATE52
