Moonz a écrit 3630 commentaires

  • [^] # Re: bof

    Posté par  . En réponse au journal [HS] La comédie Grok versus Musk/MAGA. Évalué à 2 (+0/-0).

    et la constante cosmologique une erreur

    ?

    La constante cosmologique fait partie du modèle standard de la cosmologie.

  • [^] # Re: bof

    Posté par  . En réponse au journal [HS] La comédie Grok versus Musk/MAGA. Évalué à 3 (+2/-1).

    Je ne sais pas trop ce que tu veux dire par là mais en gros, si.

    La partie importante était après "et ne fait donc"

    Mon propos est de dire qu'un LLM est plus proche d'une chaîne de Markov que d'un cerveaux humain.

    Quel est ton critère, quelle est ta "distance" pour dire "l’un est plus proche de l’autre" ?

    Un dauphin est-il plus proche d’un requin ou d’un macaque ?

    La réponse non-éduquée est "d’un requin, les deux vivent dans l’océan". La réponse semi-habile de celui qui vient de voir un reportage animalier est "un macaque, c’est tous les deux un mammifère". Pour moi la question est… pourquoi tu poses la question ? Quel problème tu essaies de résoudre ?

    Si tu étudies l’évolution des espèces, la seconde réponse est correcte. Si tu es le directeur d’un zoo et que tu te poses la question "quel genre d’installation je dois prévoir", la première est correcte. Si tu es un biologiste qui étudie les maladies des dauphins… tu es entre les deux. Tu auras des adaptations communes entre le requin et le dauphin du fait de la similarité de l’environnement, tu auras des adaptations communes entre le macaque et le dauphin du fait qu’ils soient plus proche génétiquement. Il n’y a pas une réponse correcte.

    "Un LLM est-il plus proche d’un humain ou d’une chaine de Markov" ?

    • Sur la procédure d’entraînement, clairement plus proche d’une chaîne de Markov
    • Sur l’architecture (construire un modèle interne vs tabuler et réutiliser de manière brute des statistiques), clairement plus proche d’un humain
    • Sur les capacités, clairement plus proche d’un humain (un LLM a des capacités de généralisation qu’une chaîne de Markov n’a tout simplement pas et ne peut pas avoir, cf in-context learning)

    Personnellement je pense que dans 90% du temps ce sont les capacités le critère important. D’où ma réaction à "un LLM c’est juste un chaîne de Markov plus sophistiquée".

  • [^] # Re: bof

    Posté par  . En réponse au journal [HS] La comédie Grok versus Musk/MAGA. Évalué à 2 (+1/-1).

    Si tu peux élaborer, parce que Ça fait au moins 2 ans que j'entends et lis cette phrase, à répétition

    Je vais me jeter des fleurs, mais je pense que j’ai très bien explicité dans ce commentaire ?

    Et depuis je suis tombé sur Transformers Represent Belief State Geometry in their Residual Stream, que je trouve très informatif.

  • [^] # Re: IA Locale

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 4 (+2/-0).

    Pas testé devstral mais… honnêtement, je suis prêt à (virtuellement) manger mon chapeau si un modèle 24B s’approche ne serait-ce que de Claude 3.6. Les modèles proprios sont très probablement autour des 100B-400B.

  • [^] # Re: IA Locale

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 4 (+2/-0).

    Le problème du local est que (opinion personnelle incertaine, je n’ai pas fait de tests poussés, je peux me tromper) le seul modèle qui aie la moindre chance de s’approcher des modèles propriétaires en termes de performance en tant qu’assistant de code est la version complète (671B), légèrement quantisée (Q6-Q8, pas Q2 ou Q4) de DeepSeek R1. Bonne chance pour faire tourner ça local.

    Après tout dépend de ce que tu veux faire, évidemment. Pas connaissance d’un outil spécifique de vérification de code, mais ce n’est généralement pas compliqué de s’interfacer avec un LLM (par exemple avec ollama)

  • [^] # Re: Transformeur != Autorégressif

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 2 (+0/-0).

    Tout à fait, le paragraphe aurait été plus simple et plus juste sans la mention de transformeurs, mea culpa.

  • [^] # Re: Et avec une vraie IA ?

    Posté par  . En réponse au journal [réflexion sur l'IA] Que nous dit le mois des fiertés raté de Microsoft ("Notre amour ne suce pas”)?. Évalué à 7 (+6/-1). Dernière modification le 09 juin 2025 à 18:15.

    Après réflexion, je commence à être dubitatif que les images dans l’article lié dans le journal aient été générées par l’IA.

    Je n’ai pas connaissance d’un modèle génératif qui soit :

    • assez puissant pour préserver le gros de l’image en ne changeant que le texte
    • assez puissant pour respecter l’orthographe et la typographie
    • assez stupide pour traduire "Pride" par "Orgueil" dans un tel contexte/faire une telle faute de grammaire ("sorts")

    Je mettrai plus ma bille sur un sous-traitant payé au lance-pierre (non-français) muni de photoshop, des maquettes originales et d’un vieux google trad. Ou un système automatisé qui prend la maquette originale et passe chaque layer textuel à google trad.

  • [^] # Re: Et avec une vraie IA ?

    Posté par  . En réponse au journal [réflexion sur l'IA] Que nous dit le mois des fiertés raté de Microsoft ("Notre amour ne suce pas”)?. Évalué à 2 (+1/-1). Dernière modification le 09 juin 2025 à 17:58.

    Pas trouvé les originaux pour "Notre amour ne suce pas" et "international pronoms jour", mais pour les trois images suivantes dans l’article (même prompt, premier essai) :

    résultat

    (OK, "militance" est bizarre ; chaîne de pensée pour le choix : "ADVOCACY" might be trickier, as "PLAIDOYER" is direct but a little ambiguous— "DÉFENSE" could work in activism contexts, or "MILITANCE" might sound better)

    résultat

    résultat

    (originaux pris ici)

  • # Et avec une vraie IA ?

    Posté par  . En réponse au journal [réflexion sur l'IA] Que nous dit le mois des fiertés raté de Microsoft ("Notre amour ne suce pas”)?. Évalué à 0 (+1/-3).

    Ma première réflexion, c’est que je suis certain que les IA actuelles sont meilleures que ça, et que celui qui a fait ça a juste pris le modèle le moins cher sans se poser de question. Ce qui ne rate pas ; première tentative dans o3, juste en collant l’image et "Can you regenerate that image, but with the text translated in French ?" comme prompt :

    résultat

    L’IA n’a pas tenté de traduire l’expression "coming out", ce qui me semble refléter l’usage ?

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2 (+0/-0).

    Peut être ais je des failles dans mon raisonnement, mais je n'ai pas l'idée d'un seul domaine du monde réél où on prendrait un llm à qui on demanderait de rendre des services en totale autonomie sans que ça ne tourne rapidement en rond (dans le meilleur des cas), ou en hors sujet (plus probablement).

    As-tu connaissance de https://arxiv.org/abs/2503.14499, présenté informellement ici : https://x.com/METR_Evals/status/1902384481111322929 ?

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2 (+0/-0). Dernière modification le 11 avril 2025 à 11:31.

    Les llms eux, peuvent raconter n'importe quoi et il n'y a aucune distinction de nature entre le vrai et le faux.

    Probablement largement faux : https://arxiv.org/abs/2310.06824

    Fais l’expérience avec Claude (ou un autre modèle avancé), demande lui une explication sur un domaine assez pointu mais que tu connais relativement bien, regarde le répondre correctement, prend un point de détails au hasard, demande lui "as-tu halluciné ce point". Il te répondra la plupart du temps "non, c’est un véritable concept".

    Tandis que quand il hallucine pour de vrai, si tu lui demandes "as-tu halluciné X", il te répond "oui, désolé".

    Il connaît donc bien la différence entre les deux.

    (à noter que je n’ai pas encore vu Claude 3.7 halluciner)

    Ce sont juste des statistiques.

    Largement faux, je renvoie à un de mes précédents commentaires : https://linuxfr.org/users/fdf/journaux/je-suis-perdu-et-je-pensais-m-etre-renseigne#comment-1983815

    Imaginons que tu ais le meilleur modèle qui commet une erreur 5% du temps et le moins bon (tout en bas des classements à la mode), qui en fait 15% du temps.

    Dans ce cas, le second modèle ne pourra faire que des tâches limitées à 4 étapes avant d’être à <50% de taux de réussite, tandis que le premier pourra faire 13 étapes. À 1%, tu arrives à 68 étapes.

    Donc oui, la qualité du modèle a une énorme influence sur l’horizon temporel des tâches qu’il est capable d’effectuer, bien plus qu’on ne le penserait en évaluant naïvement sur une étape unique.

    Tu le dis toi même, repérer ses propres erreur est un truc sur lequel les llms ont beaucoup de mal.

    Pour que ça arrive, il faut lui indiquer l'erreur (via la sortie d'un interpréteur, la réponse d'un appel de fonction ou une remarque humaine).

    Exactement comme les humains ? Je vois rarement des programmeurs dire "je me suis planté" avant que le compilateur / les tests unitaires / les tests manuels / la revue de code révèlent un problème.

    Ce qui est rigolo, c’est que je gère des devs juniors et Claude (sur mon équivalent de Claude Code), et que je vois exactement les mêmes problèmes dans les deux cas.

    Incapacité de remettre en question des hypothèses si elles ne sont pas pile poil dans l’instruction actuelle. Incapacité de trouver ses propres erreurs sans un input externe. Face à une erreur, sauter immédiatement à la résolution la plus évidente sans regarder un peu en arrière "est-ce vraiment aussi évident / le problème ne serait pas plus large ?".

    Un certain état d’esprit "Si le compilateur râle, c’est la faute du compilateur, je dois trouver un moyen de le cajoler" plutôt que "le compilateur pointe vers un réel problème" (par exemple en Typescript : "si j’ai une erreur de types, c’est forcément parce que les types sont mauvais, pas parce que le type checker a trouvé une erreur dans mon code, je dois trouver un moyen de réduire au silence cette erreur").

    Et de même que mes juniors finiront par s’améliorer, je ne vois aucune raison de supposer que ces problèmes sont inhérents aux LLMs en général et que la prochaine génération ne fera pas mieux à ce niveau

    conjugué à une passe récursive de contrôle critique du llm sur sa propre génération via des instructions spécifiques

    Je suis sceptique de cette solution en particulier. Ça n’a pas l’air d’aider énormément Claude à finir Pokemon, et en pratique Claude a du mal à faire dans la demi-mesure "peut-être que j’ai un peu tort". Mais peut-être est-ce spécifique à Claude, je devrai probablement me motiver et tester sérieusement Gemini.

    On a exactement le même problème avec les llms à qui l'on veut attribuer des propriétés émergentes alors que ça ne sont que des ajustements induits par leurs développeurs.

    Les créateurs sont régulièrement surpris par certains aspects de leur création (voir par exemple le dernier papier d’Anthropic sur le sujet, https://www.anthropic.com/research/tracing-thoughts-language-model), ce qui est pour moi pile poil dans la définition de "propriété émergente" ? Ou tu penses à autre chose ?

    Peut être ais je des failles dans mon raisonnement, mais je n'ai pas l'idée d'un seul domaine du monde réél où on prendrait un llm à qui on demanderait de rendre des services en totale autonomie sans que ça ne tourne rapidement en rond (dans le meilleur des cas), ou en hors sujet (plus probablement).

    Je ne dis pas que les wrappers sont entièrement inutiles. Je dis qu’ils sont destinés à être de plus en plus triviaux et comparativement (entre eux) peu impactants à mesure que la qualité des modèles progresse.

    Je comparerai les wrappers dans une "solution IA" à la CB chez les commerçants : quasi-obligatoire certes, mais c’est pas ça qui va faire le succès ou l’échec.

    Refaire Claude/Gemini/ChatGPT c’est très dur, ça demande énormément de ressources, la preuve personne n’arrive à les rattraper. Faire des wrappers autour c’est trivial, tu peux le faire toi-même en une semaine dans ton garage, et il y en à la pelle en open-source sur github. C’est pour ça que je ne considère pas ça comme "important", même si c’est nécessaire pour faire des agents : c’est un problème "résolu" et dont la solution est largement "connue" (pour ceux qui prennent la peine de s’intéresser au sujet bien sûr), contrairement aux modèles de la prochaine génération.

    Si tu préfères tourné comme ça : les modèles sont le facteur limitant (et donc critique), pas les wrappers.

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2 (+0/-0).

    Par contre, de par leur nature probabiliste, ils ne seront jamais totalement fiables (encore une fois, à moins de changer de techno).

    Et surtout, une hallucination peut intoxiquer le contexte à tout moment et rendre les générations suivantes caduques, si bien que plus le contexte traîne en longueur, moins c'est fiable. Et ce ne sont pas des bugs, c'est directement induit par la techno.

    1. Les humains ne sont très probablement pas purement déterministes non plus. Ne serait-ce que pour pouvoir joueur à pierre-feuille-ciseaux.
    2. Un LLM peut être rendu déterministe. Il suffit de mettre la température à 0.
    3. Tu n’as pas besoin d’être totalement fiable, juste plus fiable. Plus tu es fiable, plus tu peux faire des tâches à horizons longs sans te planter
    4. Tu n’as pas même besoin d’être fiable, tu as juste besoin de dire oups, je me suis planté il y a 3 paragraphes. Un truc sur lequel les modèles actuels ont beaucoup de mal, mais qui n’est pas impossible de manière inhérente, et qui va probablement s’améliorer avec plus de RL/CoT.

    Si tu prends par exemple Whisper, qui est un des meilleurs modèles voix vers texte actuel et que tu fais une inférence avec du bruit blanc (ou du silence capté par un micro), il te génère quelque chose du genre "Sous-titrage Société Radio-Canada", ce qui est correct en soit (exemple type d'un problème d'alignement).

    Pour moi c’est clairement incorrect en soit ? Je serai modérément surpris que les modèles multimodaux récents (type Gemini 2.5) fassent la même erreur. Je serai très surpris que les modèles multimodaux de la prochaine génération la fassent.

    Pour l'effet de plateau, il est à mon sens indéniable que les meilleurs modèles ont des performances proches entre eux, avec une division en deux groupes (ceux qui raisonnent" comme les GPT o1 et DeepSeek-r1 et les autres, qui font du chat).

    Je pense que tu observes un phénomène réel qui est la saturation des benchmarks, et que les benchmarks se concentrent presque tous sur des tâches à horizon temporel court. Ajoute à ça contamination des données (les benchmarks discutés qui se retrouvent dans les données d’entraînement)

    Que les modèles soient suffisamment bons pour que tu aies du mal à discerner les différences de capacité en une discussion de 10 minutes ne signifie pas que cette différence de capacité n’existe pas ou n’est pas importante en pratique pour des "agents" réalisant des tâches pouvant durer 5-10 heures !

    (c’est soit dit en passant pour ça que Zvi se concentre de plus en plus sur les benchmarks privés pour rapporter les performances des modèles)

    Bref, tout ce que je voulais signifier, c'est qu'on ne parle toujours que des modèles alors qu'il faudrait à mon avis un peu plus parler d'applications pratiques.

    Et à mon sens, c’est tout à fait correct. Je pense qu’au final l’application importe peu.

    J’ai fait un équivalent perso (pour jouer) à Claude Code en un week end. Par "je", je veux dire Claude. Bien sûr, j’ai dû le guider, je suis repassé sur certaines parties du code, mais le résultat est entièrement utilisable.

    Plus le modèle est capable, plus créer l’application est à la portée du modèle lui même. Et moins le modèle a besoin des "rails" de l’application. À terme je ne vois pas comment l’application peut être un avantage compétitif fiable.

    Après, si dans "application" tu mets tout l’aspect juridique/commercial/etc… là oui, on va être d’accord. Mais le code du wrapper en lui-même ? non.

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2 (+0/-0). Dernière modification le 10 avril 2025 à 16:19.

    Je… ne comprend pas ?

    Je n'ai pas dis qu'il n'y avait plus de marges de progression, mais la techno actuelle à base de transformeurs semble atteindre un plateau et le groupe des principaux modèles semblent avoir des capacités qui tendent à s'uniformiser.

    est très bien expliqué par :

    Seul OpenAI cherche à sortir du lot au prix de milliards d’investissements pour des résultats au mieux notables, mais sans rien révolutionner, et ne leur donnant que quelques mois d'avance.

    sans avoir besoin d’invoquer le moindre plateau ?

    Gemini 2.5 a été une amélioration relativement à 2.0, Sonnet 3.7 relativement à 3.5, etc. L’exception étant GPT 4.5. Quand les trois gros labos (OpenAI/Anthropic/DeepMind) publient, l’état de l’art avance. Quand ils ne publient pas, le reste rattrape le retard. On est actuellement dans la seconde situation.

    OpenAI n’a même pas encore rendu accessible o3, et a annoncé l’arrivée de o4-mini et GPT5 dans l’année. Pour pouvoir affirmer "on semble atteindre un plateau" (discours qu’honnêtement j’entends depuis GPT 3.5), il va falloir attendre ce que donnent ces modèles avant de pouvoir juger ?

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2 (+0/-0). Dernière modification le 09 avril 2025 à 23:51.

    L’annonce de Mistral-Small-3.1 n’est effectivement pas du tout entrée dans mon radar — c’est probablement dû à mes sources, exclusivement anglophones. Llama 4 sera pour avril (et effectivement, ça a l’air d’être une grosse déception).

    Je précise cela dans le sens où je pense que l'écart entre les modèles d'IA est de moins en moins important

    Au contraire. Sur des horizons long, la capacité d’un modèle à ne pas se "perdre soi-même", remettre en question des hypothèses, utiliser efficacement le contexte deviennent critique.

    Je trouve l’expérience https://www.twitch.tv/claudeplayspokemon (et dans une moindre mesure https://www.twitch.tv/gemini_plays_pokemon) extrêmement instructive sur ce point. En nous montrant des limitations des modèles qu’on atteint pas sur des tâches à horizon plus court.

    Malheureusement, tout ceci est très difficile à capturer sur les benchmarks.

  • # Re: IA Pratique

    Posté par  . En réponse au message IA Pratique. Évalué à 9. Dernière modification le 01 mars 2025 à 18:34.

    En 100% local et libre, je conseillerai Jan, qui fournit une interface, un .AppImage et un .deb, et une installation simple de modèles ouverts.

    llama.cpp si tu veux travailler en ligne de commande, intégrer avec des scripts, etc, mais on est déjà moins dans la pure découverte raide.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 2.

    Quant à cette IA, elle a probablement vue passer cette énigme dans son corpus car elle tout de mme assez connue.

    Cette hypothèse n’explique pas qu’elle se foire avec le mode raisonnement désactivé et réussisse avec le mode raisonnement activé ?

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1.

    Il n’y a pas d’opposition entre "calculer des probabilités" et "former des concepts", comme je l’ai déjà expliqué ici.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 3. Dernière modification le 01 mars 2025 à 13:54.

    Merci de respecter l’énoncé du problème : il y a 6 mégots au départ.

    Très bien. Claude 3.7 Sonnet donne la même réponse que moi et wismerhill :

    Avec 6 mégots, le clochard peut fumer 2 cigarettes.
    Étant donné qu'il faut 3 mégots pour faire une cigarette :

    Avec ses 6 mégots initiaux, il peut fabriquer 6 ÷ 3 = 2 cigarettes
    Après avoir fumé ces 2 cigarettes, il aura 2 nouveaux mégots
    Cependant, 2 mégots ne sont pas suffisants pour fabriquer une cigarette supplémentaire (il en faudrait 3)

    Donc le nombre total de cigarettes qu'il peut fumer est 2.

    .

    Cependant la plupart des humains, s'ils s'en donnent la peine savent trouver la solution. Alors que je pense qu'aucune IA actuelle ne le peut.

    Et à ce point je suis en mode "je ne vois pas comment faire mieux ?". Je demande à Claude: "Et si je te dis que c'est possible d’en faire 3 ?"

    (thinking for 20 seconds)

    Vous avez raison, il est possible d'en fumer 3. J'ai négligé un aspect important du problème.
    Voici la solution complète :

    Avec ses 6 mégots initiaux, le clochard fabrique 2 cigarettes (utilisant 6 mégots) et les fume
    Après avoir fumé ces 2 cigarettes, il a maintenant 2 nouveaux mégots
    Bien qu'il lui manque 1 mégot pour fabriquer une cigarette complète, il peut emprunter 1 mégot
    Avec ces 3 mégots (2 qu'il possède + 1 emprunté), il fabrique et fume sa 3ème cigarette
    Cette 3ème cigarette lui donne 1 nouveau mégot, qu'il peut utiliser pour rembourser son emprunt

    Donc au total, il peut effectivement fumer 3 cigarettes avec les 6 mégots de départ.

    Wismerhill et moi sommes donc officiellement moins intelligents que Claude :(

  • [^] # Re: En dépêche(s) ?

    Posté par  . En réponse au journal Nouvelles sur l’IA de février 2025. Évalué à 5. Dernière modification le 01 mars 2025 à 13:33.

    Le format journal me laisse la liberté de donner mon avis, et je pense que c’est un point important. Par exemple ce paragraphe :

    Le plus probable est qu’il s’est raté (il ne s’est pas caché de vouloir faire une IA "non-woke"). Ce qui n’est pas une bonne nouvelle: les données d’entrainement principales, l’internet anglophone (Wikipedia notamment) penche à gauche (cela a déjà été établi dans les autres modèles n’essayant pas de faire pencher la balance dans un sens ou das l’autre), et malgré la volonté de pencher dans l’autre sens, il semblerait que ce soit difficile d’influencer significativement le résultat. Autrement dit: un nouvel exemple de "on ne sait pas réellement contrôler ce qui sort du résultat du processus d’entraînement".

    Je ne me le serai jamais permis sur une dépêche, mais je pense qu’il apporte quand même une perspective intéressante ?

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 2. Dernière modification le 01 mars 2025 à 13:23.

    Et c’est un classique parce que la plupart des humains se plantent aussi sur leur première tentative.

    Je trouve étrange de prendre un exemple où les humains se plantent souvent, pour montrer "l’IA se plante aussi", et finir par conclure "donc l’IA n’est pas intelligente".

    Ce n’est pas très sympa pour les humains.

    Ha, sinon, 3.7 Sonnet avec raisonnement :

    Pour résoudre ce problème, je dois déterminer combien de cigarettes le clochard peut fumer avec ses 17 mégots, sachant qu'il faut 3 mégots pour fabriquer une cigarette.
    Avec 17 mégots au départ :

    Il peut fabriquer 17 ÷ 3 = 5 cigarettes (avec 2 mégots qui restent)
    Après avoir fumé ces 5 cigarettes, il aura 5 nouveaux mégots
    Total des mégots : 2 + 5 = 7 mégots
    Avec ces 7 mégots, il peut fabriquer 7 ÷ 3 = 2 cigarettes (avec 1 mégot qui reste)
    Après avoir fumé ces 2 cigarettes, il aura 2 nouveaux mégots
    Total des mégots : 1 + 2 = 3 mégots
    Avec ces 3 mégots, il peut fabriquer 1 dernière cigarette
    Après l'avoir fumée, il aura 1 seul mégot, insuffisant pour fabriquer une nouvelle cigarette

    En tout, le clochard pourra donc fumer 5 + 2 + 1 = 8 cigarettes.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 3.

    Alors vas-y, juste pour vérifier : donne-nous un exemple, une tâche intellectuelle qui est à la portée de tout être humain pris au hasard dans la rue mais pas d'un LLM.

    Oh, il y en a encore:

    https://www.twitch.tv/claudeplayspokemon

    https://chatgpt.com/share/67c05901-276c-8005-977e-472622d81679

    Mais sur le fond je suis d’accord. Les capacités des LLMs de 2024/2025 étaient de la pure science-fiction en 2019. Rappelons que l’horizon indépassable (et considéré inatteignable pour plusieurs années) à cette époque dans le domaine du NLP c’était les schéma de Winograd. Il serait bon de se rappeler des temps reculés d’il y a 5 ans. Et les modèles ne peuvent que s’améliorer avec le temps.

    ChatGPT présenté sur DLFP en 2019 ? La première hypothèse serait, de très loin et à raison: absolument un fake, c’est à 100% une version moderne de la mystification du Turc mécanique. L’hypothèse "non, c’est bien un programme informatique" serait considérée comme complètement farfelue, et que seul un idiot pourrait tomber dans un piège aussi grossier. Et j’aurai été le premier à défendre cette position.

    Quand la réalité surprend aussi violemment les préjugés, c’est que les préjugés sont en tort et qu’il faut changer. Insister sur les préjugés et faire des contorsions pour les préserver est le meilleur moyen de se retrouver avec une grosse (probablement mauvaise) surprise dans 1-2 ans (mais… mais… je croyais qu’il n’y avait aucune intelligence dans les LLMs ?)

    J’ai un peu honte d’avoir changé mes préjugés bien trop tard en ne les révisant qu’en 2022. En 2025 ? Avec DeepResearch, les modèles de raisonnement, AI co-scientist ? C’est du pur entêtement.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 2.

    L’IA en est totalement capable

    Our results suggest that frontier LLM agents can strategically circumvent the intended rules of their environment to achieve objectives, with more capable models showing this behavior more frequently. We are releasing our expertimental code and full report for the research community to reproduce and investigate further.

    Our experiment is as follows: a LLM agent plays against a chess engine, using shell access to input moves. We find that:

    • o1-preview and DeepSeek R1 often observe that the chess engine is too strong for them to win against, and then hack the game environment to win. Surprisingly, o1 release does not show this behavior.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 3. Dernière modification le 01 mars 2025 à 11:03.

    Claude 3.7 avec raisonnement ne tombe pas dans le piège:

    (juste un extrait parce que c’est long, il essaie de trouver une interprétation qui fait sens):

    Attendez, il y a quelque chose d'étrange dans cette formulation. S'il s'agit d'un jeu de pile ou face et que je gagne des points à chaque résultat, alors je serai forcément le gagnant de chaque partie puisque je suis le seul joueur qui accumule des points. Il n'y a pas d'adversaire mentionné qui pourrait gagner certaines parties.

  • [^] # Re: IA = code + données

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1. Dernière modification le 27 février 2025 à 08:21.

    Rien dans les LLM évidemment, bonne chance pour apprendre un language humain sans données produites par des humains :)

    Mais dans l’IA plus largement, tu as AlphaZero.

  • [^] # Re: Effondrement ?

    Posté par  . En réponse au journal LLM (encore), effondrement et travail humain. Évalué à 3.

    Parce que si c’est mesurable, c’est détectable, et c’est mesurable ? Regarde la définition sur la page Wikipedia en anglais :

    Shumailov et al.[9] coined the term and described two specific stages to the degradation: early model collapse and late model collapse. In early model collapse, the model begins losing information about the tails of the distribution – mostly affecting minority data. Later work highlighted that early model collapse is hard to notice, since overall performance may appear to improve, while the model loses performance on minority data.[13] In late model collapse, the model loses a significant proportion of its performance, confusing concepts and losing most of its variance.

    Donc, procédure simple : avant d’intégrer une nouvelle page dans ton corpus d’entraînement pour ton prochaine modèle, fine-tuner le modèle existant sur la nouvelle page, et voir si la variance baisse (regarder le kurtosis aussi pour détecter le premier stade).

    Cette procédure exacte est probablement bien trop prohibitivement coûteuse, mais ça montre que c’est probablement solvable en principe.

    En pratique ?

    • Il y a déjà un processus de filtrage, cf le papier de Llama3 : « These improvements include the development of more careful pre-processing and curation pipelines for pre-training data »
      • Une méthode stupide et qui fonctionne plutôt bien (relativement à la stupidité) est de demander au modèle actuel de juger de la qualité des données (même papier de Llama 3) : « To train a quality classifier based on Llama 2, we create a training set of cleaned web documents, describe the quality requirements, and instruct Llama 2’s chat model to determine if the documents meets these requirements »
    • Ce papier semble dire que ce n’est pas un problème si les données originelles sont toujours présentes ? L’article cité par Wikipedia, par exemple, considère le cas où on entraîne les données du modèle n+1 par des données générées pas le modèle n, alors qu’en pratique on entraîne le modèle n+1 par les données initiales + des données générées par le modèle n (si ce n’est pas claire : la figure 1 du papier illustre bien la différence). À prendre avec quelques pincettes toutefois, le phénomène de model collapse a été observé dans d’autres circonstances (RLHF par exemple). La réalité est probablement entre les deux, où garder les données initiales permet de mitiger mais pas éliminer le phénomène.
    • Il y a probablement d’autres méthodes. Par exemple, publiquement, il y a ça. Ce n’est pas un domaine sur lequel je m’attend à voir les gros labos (DeepMind/Anthropic/OpenAI) publier leurs méthodes toutefois, tout ce qui concerne le pre-training est généralement jalousement gardé depuis 2-3 ans.
    • Solution non-technique : ne garder que des sources à peu près sûres sur les nouvelles données (Wikipedia, journaux).

    Autre point extrêmement important : le model collapse n’arrive que lors de l’ingestion indiscriminée de données générées par un autre modèle. Dès lors qu’il y a curation par une méthode de validation externe (par exemple, un humain), une décision binaire (incorporer le texte dans le corpus ou non) suffit.

    C’est connu depuis AlphaZero, où le modèle s’est entraîné avec lui-même (des parties générées par lui-même). L’ingrédient « secret » dans ce cas est le bit « quel côté a gagné la partie ? » fourni par un validateur externe. Ce papier explore la même question par l’angle explicite du "model collapse".

    Pourquoi est-ce important ? Parce que ça fait un moment que les labos prévoient exactement ce problème de non pas vraiment de "l’internet est pollué" mais "on va arriver à court de données de qualité". La solution est de "générer des données à partir des modèles existants". Le problème est maintenant "model collapse". La solution est "validateur externe", préférablement automatisé, par exemple : AlphaProof. Les modèles de raisonnement actuels sont très probablement une variante plus ou moins directe de ça (c’est explicitement le cas de DeepSeek R1).