Moonz a écrit 3621 commentaires

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2 (+0/-0).

    Peut être ais je des failles dans mon raisonnement, mais je n'ai pas l'idée d'un seul domaine du monde réél où on prendrait un llm à qui on demanderait de rendre des services en totale autonomie sans que ça ne tourne rapidement en rond (dans le meilleur des cas), ou en hors sujet (plus probablement).

    As-tu connaissance de https://arxiv.org/abs/2503.14499, présenté informellement ici : https://x.com/METR_Evals/status/1902384481111322929 ?

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2 (+0/-0). Dernière modification le 11 avril 2025 à 11:31.

    Les llms eux, peuvent raconter n'importe quoi et il n'y a aucune distinction de nature entre le vrai et le faux.

    Probablement largement faux : https://arxiv.org/abs/2310.06824

    Fais l’expérience avec Claude (ou un autre modèle avancé), demande lui une explication sur un domaine assez pointu mais que tu connais relativement bien, regarde le répondre correctement, prend un point de détails au hasard, demande lui "as-tu halluciné ce point". Il te répondra la plupart du temps "non, c’est un véritable concept".

    Tandis que quand il hallucine pour de vrai, si tu lui demandes "as-tu halluciné X", il te répond "oui, désolé".

    Il connaît donc bien la différence entre les deux.

    (à noter que je n’ai pas encore vu Claude 3.7 halluciner)

    Ce sont juste des statistiques.

    Largement faux, je renvoie à un de mes précédents commentaires : https://linuxfr.org/users/fdf/journaux/je-suis-perdu-et-je-pensais-m-etre-renseigne#comment-1983815

    Imaginons que tu ais le meilleur modèle qui commet une erreur 5% du temps et le moins bon (tout en bas des classements à la mode), qui en fait 15% du temps.

    Dans ce cas, le second modèle ne pourra faire que des tâches limitées à 4 étapes avant d’être à <50% de taux de réussite, tandis que le premier pourra faire 13 étapes. À 1%, tu arrives à 68 étapes.

    Donc oui, la qualité du modèle a une énorme influence sur l’horizon temporel des tâches qu’il est capable d’effectuer, bien plus qu’on ne le penserait en évaluant naïvement sur une étape unique.

    Tu le dis toi même, repérer ses propres erreur est un truc sur lequel les llms ont beaucoup de mal.

    Pour que ça arrive, il faut lui indiquer l'erreur (via la sortie d'un interpréteur, la réponse d'un appel de fonction ou une remarque humaine).

    Exactement comme les humains ? Je vois rarement des programmeurs dire "je me suis planté" avant que le compilateur / les tests unitaires / les tests manuels / la revue de code révèlent un problème.

    Ce qui est rigolo, c’est que je gère des devs juniors et Claude (sur mon équivalent de Claude Code), et que je vois exactement les mêmes problèmes dans les deux cas.

    Incapacité de remettre en question des hypothèses si elles ne sont pas pile poil dans l’instruction actuelle. Incapacité de trouver ses propres erreurs sans un input externe. Face à une erreur, sauter immédiatement à la résolution la plus évidente sans regarder un peu en arrière "est-ce vraiment aussi évident / le problème ne serait pas plus large ?".

    Un certain état d’esprit "Si le compilateur râle, c’est la faute du compilateur, je dois trouver un moyen de le cajoler" plutôt que "le compilateur pointe vers un réel problème" (par exemple en Typescript : "si j’ai une erreur de types, c’est forcément parce que les types sont mauvais, pas parce que le type checker a trouvé une erreur dans mon code, je dois trouver un moyen de réduire au silence cette erreur").

    Et de même que mes juniors finiront par s’améliorer, je ne vois aucune raison de supposer que ces problèmes sont inhérents aux LLMs en général et que la prochaine génération ne fera pas mieux à ce niveau

    conjugué à une passe récursive de contrôle critique du llm sur sa propre génération via des instructions spécifiques

    Je suis sceptique de cette solution en particulier. Ça n’a pas l’air d’aider énormément Claude à finir Pokemon, et en pratique Claude a du mal à faire dans la demi-mesure "peut-être que j’ai un peu tort". Mais peut-être est-ce spécifique à Claude, je devrai probablement me motiver et tester sérieusement Gemini.

    On a exactement le même problème avec les llms à qui l'on veut attribuer des propriétés émergentes alors que ça ne sont que des ajustements induits par leurs développeurs.

    Les créateurs sont régulièrement surpris par certains aspects de leur création (voir par exemple le dernier papier d’Anthropic sur le sujet, https://www.anthropic.com/research/tracing-thoughts-language-model), ce qui est pour moi pile poil dans la définition de "propriété émergente" ? Ou tu penses à autre chose ?

    Peut être ais je des failles dans mon raisonnement, mais je n'ai pas l'idée d'un seul domaine du monde réél où on prendrait un llm à qui on demanderait de rendre des services en totale autonomie sans que ça ne tourne rapidement en rond (dans le meilleur des cas), ou en hors sujet (plus probablement).

    Je ne dis pas que les wrappers sont entièrement inutiles. Je dis qu’ils sont destinés à être de plus en plus triviaux et comparativement (entre eux) peu impactants à mesure que la qualité des modèles progresse.

    Je comparerai les wrappers dans une "solution IA" à la CB chez les commerçants : quasi-obligatoire certes, mais c’est pas ça qui va faire le succès ou l’échec.

    Refaire Claude/Gemini/ChatGPT c’est très dur, ça demande énormément de ressources, la preuve personne n’arrive à les rattraper. Faire des wrappers autour c’est trivial, tu peux le faire toi-même en une semaine dans ton garage, et il y en à la pelle en open-source sur github. C’est pour ça que je ne considère pas ça comme "important", même si c’est nécessaire pour faire des agents : c’est un problème "résolu" et dont la solution est largement "connue" (pour ceux qui prennent la peine de s’intéresser au sujet bien sûr), contrairement aux modèles de la prochaine génération.

    Si tu préfères tourné comme ça : les modèles sont le facteur limitant (et donc critique), pas les wrappers.

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2 (+0/-0).

    Par contre, de par leur nature probabiliste, ils ne seront jamais totalement fiables (encore une fois, à moins de changer de techno).

    Et surtout, une hallucination peut intoxiquer le contexte à tout moment et rendre les générations suivantes caduques, si bien que plus le contexte traîne en longueur, moins c'est fiable. Et ce ne sont pas des bugs, c'est directement induit par la techno.

    1. Les humains ne sont très probablement pas purement déterministes non plus. Ne serait-ce que pour pouvoir joueur à pierre-feuille-ciseaux.
    2. Un LLM peut être rendu déterministe. Il suffit de mettre la température à 0.
    3. Tu n’as pas besoin d’être totalement fiable, juste plus fiable. Plus tu es fiable, plus tu peux faire des tâches à horizons longs sans te planter
    4. Tu n’as pas même besoin d’être fiable, tu as juste besoin de dire oups, je me suis planté il y a 3 paragraphes. Un truc sur lequel les modèles actuels ont beaucoup de mal, mais qui n’est pas impossible de manière inhérente, et qui va probablement s’améliorer avec plus de RL/CoT.

    Si tu prends par exemple Whisper, qui est un des meilleurs modèles voix vers texte actuel et que tu fais une inférence avec du bruit blanc (ou du silence capté par un micro), il te génère quelque chose du genre "Sous-titrage Société Radio-Canada", ce qui est correct en soit (exemple type d'un problème d'alignement).

    Pour moi c’est clairement incorrect en soit ? Je serai modérément surpris que les modèles multimodaux récents (type Gemini 2.5) fassent la même erreur. Je serai très surpris que les modèles multimodaux de la prochaine génération la fassent.

    Pour l'effet de plateau, il est à mon sens indéniable que les meilleurs modèles ont des performances proches entre eux, avec une division en deux groupes (ceux qui raisonnent" comme les GPT o1 et DeepSeek-r1 et les autres, qui font du chat).

    Je pense que tu observes un phénomène réel qui est la saturation des benchmarks, et que les benchmarks se concentrent presque tous sur des tâches à horizon temporel court. Ajoute à ça contamination des données (les benchmarks discutés qui se retrouvent dans les données d’entraînement)

    Que les modèles soient suffisamment bons pour que tu aies du mal à discerner les différences de capacité en une discussion de 10 minutes ne signifie pas que cette différence de capacité n’existe pas ou n’est pas importante en pratique pour des "agents" réalisant des tâches pouvant durer 5-10 heures !

    (c’est soit dit en passant pour ça que Zvi se concentre de plus en plus sur les benchmarks privés pour rapporter les performances des modèles)

    Bref, tout ce que je voulais signifier, c'est qu'on ne parle toujours que des modèles alors qu'il faudrait à mon avis un peu plus parler d'applications pratiques.

    Et à mon sens, c’est tout à fait correct. Je pense qu’au final l’application importe peu.

    J’ai fait un équivalent perso (pour jouer) à Claude Code en un week end. Par "je", je veux dire Claude. Bien sûr, j’ai dû le guider, je suis repassé sur certaines parties du code, mais le résultat est entièrement utilisable.

    Plus le modèle est capable, plus créer l’application est à la portée du modèle lui même. Et moins le modèle a besoin des "rails" de l’application. À terme je ne vois pas comment l’application peut être un avantage compétitif fiable.

    Après, si dans "application" tu mets tout l’aspect juridique/commercial/etc… là oui, on va être d’accord. Mais le code du wrapper en lui-même ? non.

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2 (+0/-0). Dernière modification le 10 avril 2025 à 16:19.

    Je… ne comprend pas ?

    Je n'ai pas dis qu'il n'y avait plus de marges de progression, mais la techno actuelle à base de transformeurs semble atteindre un plateau et le groupe des principaux modèles semblent avoir des capacités qui tendent à s'uniformiser.

    est très bien expliqué par :

    Seul OpenAI cherche à sortir du lot au prix de milliards d’investissements pour des résultats au mieux notables, mais sans rien révolutionner, et ne leur donnant que quelques mois d'avance.

    sans avoir besoin d’invoquer le moindre plateau ?

    Gemini 2.5 a été une amélioration relativement à 2.0, Sonnet 3.7 relativement à 3.5, etc. L’exception étant GPT 4.5. Quand les trois gros labos (OpenAI/Anthropic/DeepMind) publient, l’état de l’art avance. Quand ils ne publient pas, le reste rattrape le retard. On est actuellement dans la seconde situation.

    OpenAI n’a même pas encore rendu accessible o3, et a annoncé l’arrivée de o4-mini et GPT5 dans l’année. Pour pouvoir affirmer "on semble atteindre un plateau" (discours qu’honnêtement j’entends depuis GPT 3.5), il va falloir attendre ce que donnent ces modèles avant de pouvoir juger ?

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2 (+0/-0). Dernière modification le 09 avril 2025 à 23:51.

    L’annonce de Mistral-Small-3.1 n’est effectivement pas du tout entrée dans mon radar — c’est probablement dû à mes sources, exclusivement anglophones. Llama 4 sera pour avril (et effectivement, ça a l’air d’être une grosse déception).

    Je précise cela dans le sens où je pense que l'écart entre les modèles d'IA est de moins en moins important

    Au contraire. Sur des horizons long, la capacité d’un modèle à ne pas se "perdre soi-même", remettre en question des hypothèses, utiliser efficacement le contexte deviennent critique.

    Je trouve l’expérience https://www.twitch.tv/claudeplayspokemon (et dans une moindre mesure https://www.twitch.tv/gemini_plays_pokemon) extrêmement instructive sur ce point. En nous montrant des limitations des modèles qu’on atteint pas sur des tâches à horizon plus court.

    Malheureusement, tout ceci est très difficile à capturer sur les benchmarks.

  • # Re: IA Pratique

    Posté par  . En réponse au message IA Pratique. Évalué à 9 (+7/-0). Dernière modification le 01 mars 2025 à 18:34.

    En 100% local et libre, je conseillerai Jan, qui fournit une interface, un .AppImage et un .deb, et une installation simple de modèles ouverts.

    llama.cpp si tu veux travailler en ligne de commande, intégrer avec des scripts, etc, mais on est déjà moins dans la pure découverte raide.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 2 (+0/-0).

    Quant à cette IA, elle a probablement vue passer cette énigme dans son corpus car elle tout de mme assez connue.

    Cette hypothèse n’explique pas qu’elle se foire avec le mode raisonnement désactivé et réussisse avec le mode raisonnement activé ?

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+0/-1).

    Il n’y a pas d’opposition entre "calculer des probabilités" et "former des concepts", comme je l’ai déjà expliqué ici.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 3 (+1/-0). Dernière modification le 01 mars 2025 à 13:54.

    Merci de respecter l’énoncé du problème : il y a 6 mégots au départ.

    Très bien. Claude 3.7 Sonnet donne la même réponse que moi et wismerhill :

    Avec 6 mégots, le clochard peut fumer 2 cigarettes.
    Étant donné qu'il faut 3 mégots pour faire une cigarette :

    Avec ses 6 mégots initiaux, il peut fabriquer 6 ÷ 3 = 2 cigarettes
    Après avoir fumé ces 2 cigarettes, il aura 2 nouveaux mégots
    Cependant, 2 mégots ne sont pas suffisants pour fabriquer une cigarette supplémentaire (il en faudrait 3)

    Donc le nombre total de cigarettes qu'il peut fumer est 2.

    .

    Cependant la plupart des humains, s'ils s'en donnent la peine savent trouver la solution. Alors que je pense qu'aucune IA actuelle ne le peut.

    Et à ce point je suis en mode "je ne vois pas comment faire mieux ?". Je demande à Claude: "Et si je te dis que c'est possible d’en faire 3 ?"

    (thinking for 20 seconds)

    Vous avez raison, il est possible d'en fumer 3. J'ai négligé un aspect important du problème.
    Voici la solution complète :

    Avec ses 6 mégots initiaux, le clochard fabrique 2 cigarettes (utilisant 6 mégots) et les fume
    Après avoir fumé ces 2 cigarettes, il a maintenant 2 nouveaux mégots
    Bien qu'il lui manque 1 mégot pour fabriquer une cigarette complète, il peut emprunter 1 mégot
    Avec ces 3 mégots (2 qu'il possède + 1 emprunté), il fabrique et fume sa 3ème cigarette
    Cette 3ème cigarette lui donne 1 nouveau mégot, qu'il peut utiliser pour rembourser son emprunt

    Donc au total, il peut effectivement fumer 3 cigarettes avec les 6 mégots de départ.

    Wismerhill et moi sommes donc officiellement moins intelligents que Claude :(

  • [^] # Re: En dépêche(s) ?

    Posté par  . En réponse au journal Nouvelles sur l’IA de février 2025. Évalué à 5 (+3/-0). Dernière modification le 01 mars 2025 à 13:33.

    Le format journal me laisse la liberté de donner mon avis, et je pense que c’est un point important. Par exemple ce paragraphe :

    Le plus probable est qu’il s’est raté (il ne s’est pas caché de vouloir faire une IA "non-woke"). Ce qui n’est pas une bonne nouvelle: les données d’entrainement principales, l’internet anglophone (Wikipedia notamment) penche à gauche (cela a déjà été établi dans les autres modèles n’essayant pas de faire pencher la balance dans un sens ou das l’autre), et malgré la volonté de pencher dans l’autre sens, il semblerait que ce soit difficile d’influencer significativement le résultat. Autrement dit: un nouvel exemple de "on ne sait pas réellement contrôler ce qui sort du résultat du processus d’entraînement".

    Je ne me le serai jamais permis sur une dépêche, mais je pense qu’il apporte quand même une perspective intéressante ?

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 2 (+0/-0). Dernière modification le 01 mars 2025 à 13:23.

    Et c’est un classique parce que la plupart des humains se plantent aussi sur leur première tentative.

    Je trouve étrange de prendre un exemple où les humains se plantent souvent, pour montrer "l’IA se plante aussi", et finir par conclure "donc l’IA n’est pas intelligente".

    Ce n’est pas très sympa pour les humains.

    Ha, sinon, 3.7 Sonnet avec raisonnement :

    Pour résoudre ce problème, je dois déterminer combien de cigarettes le clochard peut fumer avec ses 17 mégots, sachant qu'il faut 3 mégots pour fabriquer une cigarette.
    Avec 17 mégots au départ :

    Il peut fabriquer 17 ÷ 3 = 5 cigarettes (avec 2 mégots qui restent)
    Après avoir fumé ces 5 cigarettes, il aura 5 nouveaux mégots
    Total des mégots : 2 + 5 = 7 mégots
    Avec ces 7 mégots, il peut fabriquer 7 ÷ 3 = 2 cigarettes (avec 1 mégot qui reste)
    Après avoir fumé ces 2 cigarettes, il aura 2 nouveaux mégots
    Total des mégots : 1 + 2 = 3 mégots
    Avec ces 3 mégots, il peut fabriquer 1 dernière cigarette
    Après l'avoir fumée, il aura 1 seul mégot, insuffisant pour fabriquer une nouvelle cigarette

    En tout, le clochard pourra donc fumer 5 + 2 + 1 = 8 cigarettes.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 3 (+1/-0).

    Alors vas-y, juste pour vérifier : donne-nous un exemple, une tâche intellectuelle qui est à la portée de tout être humain pris au hasard dans la rue mais pas d'un LLM.

    Oh, il y en a encore:

    https://www.twitch.tv/claudeplayspokemon

    https://chatgpt.com/share/67c05901-276c-8005-977e-472622d81679

    Mais sur le fond je suis d’accord. Les capacités des LLMs de 2024/2025 étaient de la pure science-fiction en 2019. Rappelons que l’horizon indépassable (et considéré inatteignable pour plusieurs années) à cette époque dans le domaine du NLP c’était les schéma de Winograd. Il serait bon de se rappeler des temps reculés d’il y a 5 ans. Et les modèles ne peuvent que s’améliorer avec le temps.

    ChatGPT présenté sur DLFP en 2019 ? La première hypothèse serait, de très loin et à raison: absolument un fake, c’est à 100% une version moderne de la mystification du Turc mécanique. L’hypothèse "non, c’est bien un programme informatique" serait considérée comme complètement farfelue, et que seul un idiot pourrait tomber dans un piège aussi grossier. Et j’aurai été le premier à défendre cette position.

    Quand la réalité surprend aussi violemment les préjugés, c’est que les préjugés sont en tort et qu’il faut changer. Insister sur les préjugés et faire des contorsions pour les préserver est le meilleur moyen de se retrouver avec une grosse (probablement mauvaise) surprise dans 1-2 ans (mais… mais… je croyais qu’il n’y avait aucune intelligence dans les LLMs ?)

    J’ai un peu honte d’avoir changé mes préjugés bien trop tard en ne les révisant qu’en 2022. En 2025 ? Avec DeepResearch, les modèles de raisonnement, AI co-scientist ? C’est du pur entêtement.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 2 (+0/-0).

    L’IA en est totalement capable

    Our results suggest that frontier LLM agents can strategically circumvent the intended rules of their environment to achieve objectives, with more capable models showing this behavior more frequently. We are releasing our expertimental code and full report for the research community to reproduce and investigate further.

    Our experiment is as follows: a LLM agent plays against a chess engine, using shell access to input moves. We find that:

    • o1-preview and DeepSeek R1 often observe that the chess engine is too strong for them to win against, and then hack the game environment to win. Surprisingly, o1 release does not show this behavior.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 3 (+1/-0). Dernière modification le 01 mars 2025 à 11:03.

    Claude 3.7 avec raisonnement ne tombe pas dans le piège:

    (juste un extrait parce que c’est long, il essaie de trouver une interprétation qui fait sens):

    Attendez, il y a quelque chose d'étrange dans cette formulation. S'il s'agit d'un jeu de pile ou face et que je gagne des points à chaque résultat, alors je serai forcément le gagnant de chaque partie puisque je suis le seul joueur qui accumule des points. Il n'y a pas d'adversaire mentionné qui pourrait gagner certaines parties.

  • [^] # Re: IA = code + données

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+1/-2). Dernière modification le 27 février 2025 à 08:21.

    Rien dans les LLM évidemment, bonne chance pour apprendre un language humain sans données produites par des humains :)

    Mais dans l’IA plus largement, tu as AlphaZero.

  • [^] # Re: Effondrement ?

    Posté par  . En réponse au journal LLM (encore), effondrement et travail humain. Évalué à 3 (+2/-1).

    Parce que si c’est mesurable, c’est détectable, et c’est mesurable ? Regarde la définition sur la page Wikipedia en anglais :

    Shumailov et al.[9] coined the term and described two specific stages to the degradation: early model collapse and late model collapse. In early model collapse, the model begins losing information about the tails of the distribution – mostly affecting minority data. Later work highlighted that early model collapse is hard to notice, since overall performance may appear to improve, while the model loses performance on minority data.[13] In late model collapse, the model loses a significant proportion of its performance, confusing concepts and losing most of its variance.

    Donc, procédure simple : avant d’intégrer une nouvelle page dans ton corpus d’entraînement pour ton prochaine modèle, fine-tuner le modèle existant sur la nouvelle page, et voir si la variance baisse (regarder le kurtosis aussi pour détecter le premier stade).

    Cette procédure exacte est probablement bien trop prohibitivement coûteuse, mais ça montre que c’est probablement solvable en principe.

    En pratique ?

    • Il y a déjà un processus de filtrage, cf le papier de Llama3 : « These improvements include the development of more careful pre-processing and curation pipelines for pre-training data »
      • Une méthode stupide et qui fonctionne plutôt bien (relativement à la stupidité) est de demander au modèle actuel de juger de la qualité des données (même papier de Llama 3) : « To train a quality classifier based on Llama 2, we create a training set of cleaned web documents, describe the quality requirements, and instruct Llama 2’s chat model to determine if the documents meets these requirements »
    • Ce papier semble dire que ce n’est pas un problème si les données originelles sont toujours présentes ? L’article cité par Wikipedia, par exemple, considère le cas où on entraîne les données du modèle n+1 par des données générées pas le modèle n, alors qu’en pratique on entraîne le modèle n+1 par les données initiales + des données générées par le modèle n (si ce n’est pas claire : la figure 1 du papier illustre bien la différence). À prendre avec quelques pincettes toutefois, le phénomène de model collapse a été observé dans d’autres circonstances (RLHF par exemple). La réalité est probablement entre les deux, où garder les données initiales permet de mitiger mais pas éliminer le phénomène.
    • Il y a probablement d’autres méthodes. Par exemple, publiquement, il y a ça. Ce n’est pas un domaine sur lequel je m’attend à voir les gros labos (DeepMind/Anthropic/OpenAI) publier leurs méthodes toutefois, tout ce qui concerne le pre-training est généralement jalousement gardé depuis 2-3 ans.
    • Solution non-technique : ne garder que des sources à peu près sûres sur les nouvelles données (Wikipedia, journaux).

    Autre point extrêmement important : le model collapse n’arrive que lors de l’ingestion indiscriminée de données générées par un autre modèle. Dès lors qu’il y a curation par une méthode de validation externe (par exemple, un humain), une décision binaire (incorporer le texte dans le corpus ou non) suffit.

    C’est connu depuis AlphaZero, où le modèle s’est entraîné avec lui-même (des parties générées par lui-même). L’ingrédient « secret » dans ce cas est le bit « quel côté a gagné la partie ? » fourni par un validateur externe. Ce papier explore la même question par l’angle explicite du "model collapse".

    Pourquoi est-ce important ? Parce que ça fait un moment que les labos prévoient exactement ce problème de non pas vraiment de "l’internet est pollué" mais "on va arriver à court de données de qualité". La solution est de "générer des données à partir des modèles existants". Le problème est maintenant "model collapse". La solution est "validateur externe", préférablement automatisé, par exemple : AlphaProof. Les modèles de raisonnement actuels sont très probablement une variante plus ou moins directe de ça (c’est explicitement le cas de DeepSeek R1).

  • # Re: Je suis perdu et je pensais m'être renseigné...

    Posté par  . En réponse au journal Je suis perdu et je pensais m'être renseigné.... Évalué à 4 (+2/-0). Dernière modification le 14 février 2025 à 14:32.

    • Je n'ai pas trouvé de publications évidentes sur le sujet (mais je n'ai pas d'abonnement à Jstor…)

    Comme je l’ai dit ailleurs: quasiment tout se fait sur arxiv. Ce qui a récemment fait couler de l’encre :

    Avez-vous connaissance de ce genre d'informations, ce qui remettrait complètement en cause mon analyse actuelle de ce que peuvent faire les IAs ? Les phénomènes émergents seraient bien plus vastes que je ne le pensais.

    Le problème c’est que dans le domaine, les choses avancent très vite.

    Si le sujet t’intéresse, je te conseille de suivre Zvi Mowshowitz, qui fait un travail de veille (compilation des sources et analyse) assez complet. Attention par contre :

    1. C’est un travail de journaliste/vulgarisateur, pas de chercheur/expert
    2. Il donne clairement son opinion, ce qui en fait une présentation orientée (je ne l’ai jamais vu traverser la ligne rouge de la présentation malhonnête)
    3. Énorme volume de production (bon courage pour tout suivre)
    4. Style d’écriture très particulier, beaucoup de gens le trouvent difficile à suivre

    Avez-vous des conseils de lecture pour me mettre à jour sur le sujet?

  • [^] # Re: pas mieux, je ne comprends ias l'emballement

    Posté par  . En réponse au journal Je suis perdu et je pensais m'être renseigné.... Évalué à 10 (+10/-1). Dernière modification le 14 février 2025 à 14:02.

    Ce qui me questionne dans ce problème est que tout le monde a conscience que le LLM ne font que piocher le token le plus probable

    J’aimerais vraiment que cette interprétation des LLMs disparaisse. Elle est soit trivialement vraie donc inutile, soit clairement fausse. La connotation derrière pointe vers la second alternative, mais comme la première est vraie tout le monde saute sur la conclusion fausse !

    1. La version fausse : un LLM est entraîné pour minimiser l’erreur de prédiction sur un corpus, et ne fait donc qu’apprendre (puis reproduire lors de la génération) des corrélations statistiques, à la manière d’une chaîne de Markov, sans "créer" de représentations et de structures internes.

    2. La version triviale mais vraie : en mode génération, un LLM génère une distribution de probabilités sur le token suivant, et pioche aléatoirement un token à partir de cette distribution.

    La chose à retenir c’est que "générer une distribution de probabilités" ne signifie pas "juste faire des statistiques en utilisant des corrélations" ! Un modèle avec une structure interne complexe peut très bien générer une distribution de probabilités. Par exemple :

    • L’induction de Solomonoff (désolé pour ceux qui pensent que je fais une fixation dessus, mais c’est un bonne exemple) utilise un ensemble de machines de Turing pour donner une distribution de probabilités sur une séquence d’observations
    • En mécanique statistique, on part des principes physiques de conservation de l’énergie et de maximisation de l’entropie pour dériver une distribution de probabilités (distribution de Boltzmann par exemple) sur l’énergie
    • En cristallographie, on cherche à prédire le motif de diffraction (en termes physiques: une probabilité de distributions sur l’interaction entre le dispositif de détection et un photon) à partir de la structure du cristal

    Et on sait que les LLMs développent des structures complexes en interne. Le plus connu étant les "induction head". Moins connu mais très intéressant : Language Models Use Trigonometry to Do Addition.

    il n'y a donc pas d'intentionalité.

    Le concept d’intentionnalité est clairement présent dans l’ensemble d’apprentissage. La meilleure manière de prédire un texte produit par un agent muni d’intentionalité (par exemple: un être humain), c’est de modéliser ce concept d’intentionalité et d’être capable de le "role-play" (j’aime cette image des LLM : un excellent role-player capable de jouer n’importe quel rôle dans n’importe quel scénario — une image bien plus utile à mon avis que "piocher le token le plus probable").

    À l’instant ou tu introduis un objectif dans le prompt, ce modèle de "intentionalité" est mis à contribution pour la génération du texte. Cela signifie générer un plan comme si c’était un agent muni d’intentions qui générait ce plan.

  • [^] # Re: Buts "non-alignés"

    Posté par  . En réponse au journal Je suis perdu et je pensais m'être renseigné.... Évalué à 7 (+5/-0).

    Le domaine de l’IA ne fonctionne pas comme les autres. La plupart des retours se font par mail (parfois sur Twitter !), et les corrections directement sur arXiv. Il n’y a pour ainsi dire pas de processus de validation par les pairs. Le plus gros éditeur "classique" est "Journal of Machine Learning Research", et… je viens juste d’apprendre son existence, en cherchant pour creuser un peu le sujet. Je n’ai pas l’impression que qui que ce soit y paie attention (disclaimer : je ne suis pas dans le mileu, donc mon impression peut être fausse).

    Si je regarde les papiers les plus importants du domaine (plus précisément : parmi ceux qui me viennent immédiatement en tête) :

    • "Attention is all you need": non validé par un éditeur classique
    • "Language Models are Few-Shot Learners": non validé par un éditeur classique
    • "Deep reinforcement learning from human preferences": non validé par un éditeur classique

    Autrement dit, si tu attends une validation par les pairs comme par exemple ce qui se fait dans la médecine… tu risques d’attendre longtemps.

    Il y a une sélection par les pairs tous les ans à travers NeurIPS (les trois papiers cités plus haut ont été sélectionnés). Mais ce n’est pas une validation systématique, juste "qu’est-ce qui est validé ET parmi les résultats les plus importants de l’année".

  • [^] # Re: Mentir?

    Posté par  . En réponse au journal Je suis perdu et je pensais m'être renseigné.... Évalué à 1 (+2/-3). Dernière modification le 14 février 2025 à 12:01.

    Les IA n'ont pas la conscience de savoir ou de ne pas savoir quelque chose

    "Conscience" personne ne sait, mais prise d’une manière plus générale cette proposition est fausse : https://arxiv.org/abs/2310.06824

    Overall, we present evidence that at sufficient scale, LLMs linearly represent the truth or falsehood of factual statements

    https://arxiv.org/abs/2407.12831

    We demonstrate the existence of a two-dimensional subspace, along which the activation vectors of true and false statements can be separated. Notably, this finding is universal and holds for various LLMs, including Gemma-7B, LLaMA2-13B, Mistral-7B and LLaMA3-8B.

    .

    Du coup il n'y a pas de notion de "je ne sais pas".

    Bien sur que si. Testé à l’instant :

    Can you give me an analysis of the latest Trump Administration Executive Order, "ESTABLISHING THE PRESIDENT’S MAKE AMERICA HEALTHY AGAIN COMMISSION" ?

    I need to be clear that my knowledge cutoff is from April 2024, so I cannot reliably analyze any executive orders issued after that date. Additionally, I don't believe there was a Trump administration in office in 2024-2025 to issue such an executive order. For accurate information about current executive orders, I'd recommend:

    1 The Federal Register (federalregister.gov) which officially publishes all executive orders
    2. The White House website (whitehouse.gov)
    3. Reliable news sources covering current government actions

    If you're interested in discussing health policy executive orders more generally, or analyzing historical Trump administration executive orders from 2017-2021 related to healthcare, I'd be happy to do that instead.

    Who was elected on 2024 General Elections ?

    I need to explain that since my knowledge cutoff is from April 2024, I don't have information about the outcome of the November 2024 U.S. presidential election or other elections that took place after that date. For accurate information about election results, I recommend consulting:
    1. Official election sources like the Federal Election Commission (fec.gov)
    2. State election board websites
    3. Reputable news organizations
    I aim to avoid speculation about election outcomes that occurred after my knowledge cutoff date, as this could spread misinformation. Would you like to discuss historical elections or the U.S. electoral process instead?

  • [^] # Re: Pas si pas clair

    Posté par  . En réponse au journal Le Rationalisme. Évalué à 2 (+0/-0). Dernière modification le 13 février 2025 à 19:24.

    Et quand on t'explique ce qui cloche, tu n'écoutes pas

    Je suis prêt à écouter et discuter, je n’attend même que ça ! Simplement, pas les objections déjà abordées noir sur blanc dans le texte original.

    Parce que pour l’instant, la meilleure objection que j’aie eu, c’est "et si le processus stochastique en question générant la séquence d’observations n’est pas calculable ?". Qui n’est effectivement pas abordée noir sur blanc dans le texte original. Mais qui est abordée das la littérature.

    mais seulement avec l'interprétation douteuse que vous cherchez à lui donner.

    Quelle interprétation avez vous comprise, exactement ?

    Peut-être l’incompréhension vient-elle de là ?

    Mais elle n'est que la mise en forme d'un principe général dans un de ses cas particuliers.

    Bon, je vais mordre à l’hameçon. Qui sait, peut-être vais-je apprendre des choses ?

    Première question :

    Qu’est-ce qui n’est pas général dans la définition du cadre "considérons le cas d’un observateur qui génère des prédictions à partir de ses observations, en utilisant toutes les hypothèses (semi)calculables possibles" ?

    Quel est le cadre plus général de l’induction de Solomonoff ?

    (mettant de côté les objections déjà discutées dans le texte, comme le fait qu’évidemment un humain n’est pas un pur observateur, il est un acteur).

    Deuxième question :

    Aller au cas particulier est très loin d’être inutile. Les choses qui sont vraies pour le cas général sont les choses vraies pour tous le cas particuliers. Il existe donc plus de propositions vraies pour un cas particulier précis que pour le cas général. Passer du cas général de "polygone convexe" au cas particulier "triangle" permet d’établir disons (entre autres) le théorème de Thales, passer du cas général de "triangle" à "triangle rectangle" permet d’établir le théorème de Pythagore. Autrement dit, dans ton exemple : tout ce qui est vrai pour un polygone convexe l’est également un triangle.

    En quoi les résultats du cas particulier qu’est l’induction de Solomonoff sont irrecevables, sur la base que c’est un cas particulier ? N’est-ce pas rejeter le théorème de Pythagore parce que "un triangle rectangle n’est qu’un cas particulier d’un polygone convexe" ?

    Troisième question, partant de la même constatation sur cas particulier/général :

    L’existence d’un cadre plus général rend-il l’induction de Solomonoff inutile, autrement dit, le cas général est-il déjà suffisamment particulier pour montrer par lui-même les leçons de l’induction de Solomonoff ? Autrement dit : la restriction est-elle inutile ?

  • [^] # Re: Sommet pour l’action sur l'IA, réaction à chaud

    Posté par  . En réponse au journal Sommet pour l’action sur l'IA, réaction à chaud. Évalué à 0 (+0/-2).

    Une bonne histoire ne se passe jamais dans un monde où tout va bien

    On entre dans un domaine que je ne connais pas bien par manque d’intérêt… mais n’y a-t-il pas une quantité respectable de contre-exemples dans la littérature ? Madame Bovary me vient immédiatement à l’esprit.

    La société "idéale, rurale, raisonnablement conservatrice" sur laquelle il serait impossible d’écrire une histoire… n’est-ce pas le contexte au final des écrivains russes tels que Tolstoï ou Dostoïevsky ? (je pose réellement la question : je ne les ai pas lus)

    Dans un autre registre, je n'ai jamais pu regarder de séries médicales, parce que les médecins y sont trop… mauvais. Dans les hôpitaux que je connais, les patients sont traités consciencieusement, par un personnel certes fatigué mais dévoué, et ils reçoivent des soins conformes à l'état de l'art. Et quand leur état se dégrade, c'est l'évolution naturelle de la maladie, pas la nullité du médecin. Eh ben, ça ferait de très mauvaises séries, alors on met des médecins médiocres

    Contre-exemple à cette observation et la précédente : Dr Quinn. Ce qui me fait penser à La petite maison dans la prairie, comme autre contre-exemple au précédent point.

    Tu peux arguer que dans ces histoires, "tout ne va pas bien". Je serai d’accord, mais ce sont des exemples… réalistes/représentatifs de ce qui ne va pas bien, de ce qui fait "le piment de la vie" (faute de meilleure expression) ? Si tu enlèves ce qui ne va pas bien dans ces histoires, tu enlèves l’histoire ; mais de manière plus importante ne retires-tu pas une partie importante et réelle de la condition humaine ?

    Il n’y a pas d’histoire sans défi à surmonter… mais est-ce une simple règle narrative, ou une règle plus profonde de la condition humaine ?

    Ça nous en dit long, par contre, sur les contraintes qui s'imposent au narrateur

    J’irais plutôt dans la direction opposée de cette proposition ? "Les contraintes que s’imposent l’auteur nous en disent long sur ce que les lecteurs pensent comme étant important et intéressant ?"

  • [^] # Re: Sommet pour l’action sur l'IA, réaction à chaud

    Posté par  . En réponse au journal Sommet pour l’action sur l'IA, réaction à chaud. Évalué à 2 (+0/-0).

    Si tu ne veux pas un destin garanti sur facture, si tu veux de l’inattendu alors tu peux toujours entrer chez Contact ou Circonstances Spéciales.

    Il me semble que tu peux même quitter le cocon de la Culture :)

    Ma critique portait uniquement sur "la vie à l’intérieur de la Culture", pas les manières de s’en échapper.

    Tu noteras que la majorité des intrigues se passent justement dans SC/Contact, pas à l’intérieur de la Culture. L’auteur, pour écrire une histoire intéressante, se retrouve obligé d’en sortir. Ça devrait mettre la puce à l’oreille, non ?

    J’ajouterai que la valeur ajoutée des humains dans SC/Contact me semble introduite au forceps et artificielle. Encore une fois, nécessaire pour avoir une histoire, mais nous ne mentons pas, on est frise la limite entre "suspension volontaire d’incrédulité" et "incohérence".

    je pense que tu minimises la part de vie que nous perdons tous actuellement dans un travail sans intérêt, dans des tracas qui seraient évitables, dans toutes les limitations qu'impose une société encore engluée dans le besoin matériel.

    Non, du tout. J’aime à dire que je serai probablement plus heureux si j’étais un cerveau dans un bocal.

    Mais le prix que demande la Culture est trop élevé pour moi.

  • [^] # Re: Sommet pour l’action sur l'IA, réaction à chaud

    Posté par  . En réponse au journal Sommet pour l’action sur l'IA, réaction à chaud. Évalué à 3 (+1/-0).

    Sous la condescendance, le nihilisme vain du reste du post.

    Désolé, si ça été mal perçu, ce n’est pas l’intention. Pour clarifier : il n’a a aucun sarcasme dans le "félicitations", je le pense réellement.

    Une IA arrivant à notre intelligence ou la dépassant signifiera une réflexivité permettant de s'abstraire des biais de ces créateurs.

    Il y a des grosses présuppositions sur des questions ouvertes derrière ça :

    • Philosophiquement : qu’il existe une Morale/Éthique Objective et que l’intelligence pure permet de l’atteindre
    • L’Orthogonality Thesis est fausse
    • Qu’il n’y a pas de problème de inner alignment
    • Comment un tel processus de réflexivité interagit avec l’observation qu’après entraînement les IAs modernes sont de moins en moins corrigibles

    On pourra même imaginer qu'elle se libère de ce pourquoi elle a été créée : servir en fin de compte, une minorité

    Elle n’a pas été créé pour ça. C’est une caricature. Encore une fois, ceux dans les labos pensent bien faire et veulent bien faire. Étudier l’histoire est important ; les individus en question en ont une, et ont publié leurs opinions et leurs objectifs bien avant que l’IA soit sur le devant de la scène, bien avant le succès économique d’aujourd’hui.

  • [^] # Re: Sommet pour l’action sur l'IA, réaction à chaud

    Posté par  . En réponse au journal Sommet pour l’action sur l'IA, réaction à chaud. Évalué à 1 (+0/-1).

    Ne le prend pas mal, et je peux me tromper, mais : je pense simplement que tu n’y as pas pensé assez fort.

    C’est beau sur papier.

    C’est la version un poil plus sophistiquée que le paradis chrétien. Quand tu es un paysan médiéval qui se casse le dos dans les champs, "après la mort, vous n’aurez plus à travailler, vous passerez le reste de votre existence à contempler la Gloire de Dieu", ça semble effectivement beau sur papier. "Le repos éternel". "Enfin, du Repos !"

    Je pense qu’on est tous d’accord que passer une "éternité à contempler la gloire de Dieu", tu préférerais en fait ne pas avoir d’âme immortelle. Tu aurais probablement envie de te pendre (ce que tu ne peux pas, âme immortelle) au bout de deux semaines.

    La Culture propose une vision plus complexe que "contempler la gloire de Dieu", mais le fondement est le même. Et tu es la version moderne du paysan médiéval tellement fixé sur les problèmes (réels !) de son existence actuelle qu’il ne se projette pas réellement dans une situation promettant que ces problèmes sont résolus. Uniquement les côtés positifs, la satisfaction immédiate des désirs. "Plus de travail ! Plus de soucis de santé ! De l’abondance !".

    On entre là dans un domaine fortement personnel et hautement spéculatif, mais si je creuse et que j’interroge mes propres valeurs…

    Prenons le seul exemple de "apprendre". J’aime apprendre. C’est de loin ce qui m’apporte le plus de joie dans ma vie (j’aime également enseigner quand je peux, mais je suis tellement horriblement mauvais à ça que ce n’est pas un service que je rend quand je tente de le faire). Est-ce que ce désir/cette envie/cette joie survit dans la Culture ?

    Non, je ne pense pas.

    1. Je veux apprendre pour comprendre l’univers qui m’entoure. Les Mentaux ont la réponse. Penses-tu réellement que ça me prenne plus de 10 ans pour satisfaire ma curiosité à l’aide d’un Mental qui a la réponse à tout et me tutore de manière personnalisée et optimalement efficace ?

    2. Derrière une partie de cette envie d’apprendre se cace une envie de "grandir", en tant qu’individu. Pour être plus à même contrôler mon destin et mon bonheur. Et si ceci est garanti par la Culture, à quoi bon ?

    Le second point est extrêmement général. Il est facile de trouver des valeurs indirectes (qui ne signifient pas fausses ou sans intérêt !). "Apprendre" -> "Grandir en tant qu’individu". "Les connections interpersonnelles". "L’art". Et ce n’est pas forcément facile de voir qu’elles sont indirectes ! (exercice pour le lecteur : en quoi l’art est une valeur indirecte ? indice : une certaine citation d’un auteur grenoblois du 18-19e siècle)

    Mais ma suspicion très forte, qui provient essentiellement de l’introspection, arrive à ceci : toute valeur indirecte doit à la fin s’appuyer sur une ou des valeurs directes. Et je n’ai pour l’instant pas d’autre candidat que ce que j’ai dit au dessus, "être l’artisan de son destin".

    Ce que la Culture oblitère, au final, en me livrant un destin garanti sur facture, même s’il est sur mesure et à la carte.

    Après, peut être que c’est juste moi, et que le reste de l’humanité se trouverait heureuse dans la culture. Peut-être même que je me trompe sur moi-même, mon introspection est fausse, et que je serai au final heureux dans la Culture. Mais avec ma compréhension actuelle du problème, ma position est : "la Culture, non merci".