Moonz a écrit 3664 commentaires

  • [^] # Re: AI et chômage

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 3.

    La croissance fait référence à la croissance du PIB, pas à la croissance de l'extraction des ressources minières (référence à la masse de la Terre).

    La référence à la masse de la Terre fait référence à "même si les facteurs physiques sont limitants, à quel point sommes nous loin d’atteindre l’asymptote ?"

    J’aurai pu utiliser le ratio de "énergie utilisée par l’économie" / "puissance émise par le soleil" (~ 1 / 1013).

    Ou "richesse globale actuelle" / "valeur actuelle des métaux précieux dans la ceinture d’astéroïdes" (1 / 106)

    Tout ça pour arriver à une intuition : si c’est la finitude des ressources qui limitera la croissance, le point d’inflection n’est probablement pas pour demain.

  • [^] # Re: AI et chômage

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 2.

    Super, mais ça ne répond pas à la question.

    Ça répond littéralement à la question littérale, de "comment une fonction (PIB) peut avoir une dérivée (croissance) infinie en restant bornée" ? C’est toi qui part en "au fond, qu’est-ce que le PIB", qui est une autre question.

    Si on augmente le PIB en cassant volontairement des fenêtres puis on les répare, on améliore le PIB d'un point de vue statistique

    Non

  • [^] # Re: Ras-le-bol de l’IA ! Résistons !

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 5.

    J’ai fait un journal, dans le journal on m’a dit "ça devrait être une dépêche", je le fait maintenant en dépêche. Si les modos me disent "en fait c’est mieux en journal", aucun problème, je repasse en journal.

    En plus cette dépêche est traduite par une IA

    Seules les citations sont traduites par l’IA, parce que l’IA est meilleure traductrice que moi. Et que ça me prend déjà plusieurs heures par mois pour compiler, filtrer, et écrire, si je dois traduire par moi même des annonces officielles (ce qui n’a honnêtement aucun intérêt), je vais pas m’en sortir.

    La dépêche est dans l’espace de collaboration, si tu veux une meilleure traduction, ne te gêne pas !

    Les gens neutres et pas orienté qui ne font pas de politique

    J’ai écrit l’inverse. Que j’essaie au mieux de ne pas sélectionner les sujets en fonction de mes opinions, mais que je ne fais pas trop d’effort pour cacher mes opinions.

    (ce qui est rigolo, c’est qu’apparemment, sans faire d’effort j’arrive assez bien à la cacher, puisque des deux personnes que j’ai vu qui essaient de m’attribuer une intention, les deux sont à côté de la plaque)

    Nous avons le droit et le devoir de dire NON à l’IA.

    Puisque apparemment ce n’est pas assez transparent dans les dépêches, je vais dévoiler mon opinion au grand jour : c'est également mon avis.

    Mes dépêches sur l’IA viennent entièrement d’un angle « connais ton ennemi ».

    La plupart de tes objections sont à côté de la plaque. Qui comptes-tu convaincre, exactement, en utilisant des arguments faux ou fallacieux qui sont aisément réfutables en 5 minutes par quelqu’un qui s’y connaît un minimum ?

    Tant que le mouvement anti-IA sera porté par l’ignorance et l’auto-intoxication (et parfois malheureusement le mensonge), le mouvement anti-IA n’ira nulle part. La première phase est donc l’éducation. C’est l’objet de mes dépêches.

  • [^] # Re: AI et chômage

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 3. Dernière modification le 03 juillet 2025 à 10:03.

    Mais si Anthropic "gagne" la course, je ne vois pas trop ce que cela changera en pratique en fait

    Avoir une voix quand le parlement consulte les acteurs du secteur sur les actions législatives à prendre ?

    D'où l'importance d'avoir des États forts pour piloter cela étant donnés les enjeux plutôt que de laisser le privé faire ce qu'ils veulent sur la question

    Dario Amodei n’a pas le contrôle là dessus.

    J’ajouterai que la voie "abandonner l’industrie, passer sur de l’activisme et éveiller les consciences et parler au politiques" est suivie par Joshua Bengio/Geoffrey Hinton, et les résultats sont loin d’être spectaculaires. Difficile de jeter la pierre à Dario Amodei pour ne pas s’y engouffrer.

  • [^] # Re: AI et chômage

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 3.

    Si tu penses que ta boîte va causer probablement un chômage de masse, tu devrais agir un peu plus que de juste agiter la menace dans la presse.

    Pour sa défense, ça fait un moment qu’il crie haut et fort que l’IA va nécessiter une « réécriture complète du contrat social de nos sociétés », et Anthropic a fait du lobbying contre la tentative d’introduire une loi (poussée entre autre par Microsoft et Meta) interdisant toute régulation de l’IA pour 10 ans aux US.

    Et en particulier agir pour que cela n'arrive aps en n'étant pas dans la course à qui mettra ces gens là au chômage le plus vite possible.

    Ce n’est malheureusement pas aussi simple que ça. Si demain Anthropic se retire de la course, non seulement OpenAI et Google y sont toujours, mais en plus tu as maintenant sur le marché du travail un paquets de chercheurs/développeurs en IA parmi les plus talentueux — prêts à aller chez OpenAI/Google/Meta (Meta en particulier est désespéré, et offre 300 millions de dollar à tout "top" talent qui accepterait de les rejoindre). Dans l’état des choses, la fragmentation en 4-5 gros labos/entreprises est probablement un facteur de ralentissement.

    L’option "il y a un seul gros développeur d’IA, mais qui agit de manière responsable" a été tentée, c’était OpenAI à sa création. L’histoire a montré que ça ne marchait pas : le rattrapage (être une génération derrière) n’est pas si difficile, rejoindre d’état de l’art est possible si tu y mets les moyens (cf Google), et les pressions internes et externes pour "aller plus loin et vite" sont immenses.

    Mais je comprend ton point de vue, j’ai failli finir la dépèche par ce meme :

    Dario Amodei

    (en référence à l’interview en question)

  • [^] # Re: AI et chômage

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à -1.

    La fameuse croissance infinie dans un monde fini. Un concept que je n'arrive toujours pas à comprendre.

    1. Sigmoïde : la croissance (la dérivée) est infinie (au sens : toujours positive), sans que le PIB ne diverge à l’infini.

    2. Toute sigmoïde ressemble à une exponentielle sur sa première moitié. Le PIB est très probablement une sigmoïde dont nous sommes quelque part sur la première moitié. La question à ???€ est : quand atteindrons nous le point d’inflection, et quelle est l’asymptote ? Pour ma part, considérant que la masse de la terre c’est 1/1030 ième de la masse de l’univers observable, je suis plutôt optimiste que l’on est loin des limites du possible.

  • [^] # Re: Pas clair

    Posté par  . En réponse à la dépêche Le système de paiement GNU Taler prend vie. Évalué à 3. Dernière modification le 02 juillet 2025 à 11:23.

    Tu as deux types de transfert :

    • Transfert "brut", je te donne le jeton, littéralement un Controle-C Controle-V du jeton. Celui ci ne passe pas par la plateforme d’échange, et nécessite effectivement que les deux parties se fassent confiance, parce que c’est une copie mais qu’une seule des deux copies pourra être déposée (la première gagne).

    • Transfert-et-dépose-immédiatement, dans le contexte d’une transaction marchande : je transfère le jeton à un marchand, celui-ci le dépose immédiatement (électroniquement) sur la plateforme d’échange (et le jeton n’est plus déposable), et me donne une preuve de transfert. Le vendeur est couvert dans ce cas.

  • # Explications

    Posté par  . En réponse à la dépêche Le système de paiement GNU Taler prend vie. Évalué à 8.

    Bon, pour ceux comme moi qui connaissent assez de cryptographie pour savoir ce qu’est une signature, mais pas assez pour savoir ce qu’est une signature aveugle (Blind signature), voilà comment ça marche (si j’ai bien compris) :

    On ajoute deux opérateurs, Blind et Unblind au schema habituel de Sign/Verify, avec la garantie suivante :

    • Unblind(Nonce, Sign(Blind(Nonce, Message), SignerPrivateKey)) == Sign(Message, SignerPrivateKey)
    • La connaissance de Blind(Nonce, Message) ne donne aucune information sur Message. En particulier, si je fournis Blind(Nonce1, Message1) et Blind(Nonce2, Message2), il est impossible de déterminer lequel des deux est la version blinded de Message1.
    • De même, la connaissance de Message1 ne me permet pas d’identifier quelle est la version blinded de celui ci si je fournis Blind(Nonce1, Message1) et Blind(Nonce2, Message2)

    Le schema basique est donc :

    Je génère une chaîne aléatoire "Serial". Je demande à la banque de signer ça de manière aveugle, pour 100€, ce qui me donne un (Serial, Sign(Serial, BankPrivateKey)) qui vaut 100€, sans que la banque n’aie jamais vu ni Serial, Sign(Serial, BankPrivateKey) (la banque a vu Blind(Nonce, Serial) et Sign(Blind(Nonce, Serial), BankPrivateKey), qui sont différends).

    Un marchand peut vérifier que la signature est valide, et la banque fournit deux services :

    • Est-ce que ce serial a été déposé (oui / non) ?
    • Déposer un serial qui n’a pas encore été déposé

    (les plus perspicaces d’entre vous auront remarqué : le 100€ n’apparait nulle part dans le protocole, ça veut dire qu’on ne peut avoir que des jetons d’une valeur fixe ? La réponse est oui, mais la banque a plusieurs paires publiques/privées : PrivKey_1€/PubKey_1€, PrivKey_10€/PubKey_10€, PrivKey_50€/PubKey_50€, ce qui permet d’avoir des montants arbitraires en signant avec plusieurs clés différentes)

    Ceci est le résultat de 1-2h de recherche perso, si quelqu’un en connaît plus que moi, les corrections sont les bienvenues.

  • [^] # Re: Pas clair

    Posté par  . En réponse à la dépêche Le système de paiement GNU Taler prend vie. Évalué à 4. Dernière modification le 02 juillet 2025 à 10:37.

    La réponse est simple : il peut. Si j’ai un jeton, je peux le copier et le donner à 3 personnes différentes.

    La garantie est que :

    • Il ne peut être déposé qu’une fois à la banque
    • Tu peux savoir à tout moment s’il a été déposé

    Donc : tu peux le transférer autant que tu veux, mais il faut que les deux parties se fassent confiance, parce que rien dans le protocole ne m’empêche de transférer le même jeton plusieurs fois.

    Source, section 1.2.5 :

    Transferability is a feature of certain e-cash systems that allows transfer of e-cash between two parties without breaking anonymity properties [FPV09]. Contemporary systems that offer this type of disintermediation attract criminal activity [Ric16].

    GNU Taler specifically provides roughly the opposite of this property, namely income transparency, to guarantee that e-cash is not easily abused for tax evasion. Mutually trusting users, however, can share ownership of a coin.

  • [^] # Re: bof

    Posté par  . En réponse au journal [HS] La comédie Grok versus Musk/MAGA. Évalué à 2.

    et la constante cosmologique une erreur

    ?

    La constante cosmologique fait partie du modèle standard de la cosmologie.

  • [^] # Re: bof

    Posté par  . En réponse au journal [HS] La comédie Grok versus Musk/MAGA. Évalué à 3.

    Je ne sais pas trop ce que tu veux dire par là mais en gros, si.

    La partie importante était après "et ne fait donc"

    Mon propos est de dire qu'un LLM est plus proche d'une chaîne de Markov que d'un cerveaux humain.

    Quel est ton critère, quelle est ta "distance" pour dire "l’un est plus proche de l’autre" ?

    Un dauphin est-il plus proche d’un requin ou d’un macaque ?

    La réponse non-éduquée est "d’un requin, les deux vivent dans l’océan". La réponse semi-habile de celui qui vient de voir un reportage animalier est "un macaque, c’est tous les deux un mammifère". Pour moi la question est… pourquoi tu poses la question ? Quel problème tu essaies de résoudre ?

    Si tu étudies l’évolution des espèces, la seconde réponse est correcte. Si tu es le directeur d’un zoo et que tu te poses la question "quel genre d’installation je dois prévoir", la première est correcte. Si tu es un biologiste qui étudie les maladies des dauphins… tu es entre les deux. Tu auras des adaptations communes entre le requin et le dauphin du fait de la similarité de l’environnement, tu auras des adaptations communes entre le macaque et le dauphin du fait qu’ils soient plus proche génétiquement. Il n’y a pas une réponse correcte.

    "Un LLM est-il plus proche d’un humain ou d’une chaine de Markov" ?

    • Sur la procédure d’entraînement, clairement plus proche d’une chaîne de Markov
    • Sur l’architecture (construire un modèle interne vs tabuler et réutiliser de manière brute des statistiques), clairement plus proche d’un humain
    • Sur les capacités, clairement plus proche d’un humain (un LLM a des capacités de généralisation qu’une chaîne de Markov n’a tout simplement pas et ne peut pas avoir, cf in-context learning)

    Personnellement je pense que dans 90% du temps ce sont les capacités le critère important. D’où ma réaction à "un LLM c’est juste un chaîne de Markov plus sophistiquée".

  • [^] # Re: bof

    Posté par  . En réponse au journal [HS] La comédie Grok versus Musk/MAGA. Évalué à 2.

    Si tu peux élaborer, parce que Ça fait au moins 2 ans que j'entends et lis cette phrase, à répétition

    Je vais me jeter des fleurs, mais je pense que j’ai très bien explicité dans ce commentaire ?

    Et depuis je suis tombé sur Transformers Represent Belief State Geometry in their Residual Stream, que je trouve très informatif.

  • [^] # Re: IA Locale

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 4.

    Pas testé devstral mais… honnêtement, je suis prêt à (virtuellement) manger mon chapeau si un modèle 24B s’approche ne serait-ce que de Claude 3.6. Les modèles proprios sont très probablement autour des 100B-400B.

  • [^] # Re: IA Locale

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 4.

    Le problème du local est que (opinion personnelle incertaine, je n’ai pas fait de tests poussés, je peux me tromper) le seul modèle qui aie la moindre chance de s’approcher des modèles propriétaires en termes de performance en tant qu’assistant de code est la version complète (671B), légèrement quantisée (Q6-Q8, pas Q2 ou Q4) de DeepSeek R1. Bonne chance pour faire tourner ça local.

    Après tout dépend de ce que tu veux faire, évidemment. Pas connaissance d’un outil spécifique de vérification de code, mais ce n’est généralement pas compliqué de s’interfacer avec un LLM (par exemple avec ollama)

  • [^] # Re: Transformeur != Autorégressif

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mai 2025. Évalué à 2.

    Tout à fait, le paragraphe aurait été plus simple et plus juste sans la mention de transformeurs, mea culpa.

  • [^] # Re: Et avec une vraie IA ?

    Posté par  . En réponse au journal [réflexion sur l'IA] Que nous dit le mois des fiertés raté de Microsoft ("Notre amour ne suce pas”)?. Évalué à 7. Dernière modification le 09 juin 2025 à 18:15.

    Après réflexion, je commence à être dubitatif que les images dans l’article lié dans le journal aient été générées par l’IA.

    Je n’ai pas connaissance d’un modèle génératif qui soit :

    • assez puissant pour préserver le gros de l’image en ne changeant que le texte
    • assez puissant pour respecter l’orthographe et la typographie
    • assez stupide pour traduire "Pride" par "Orgueil" dans un tel contexte/faire une telle faute de grammaire ("sorts")

    Je mettrai plus ma bille sur un sous-traitant payé au lance-pierre (non-français) muni de photoshop, des maquettes originales et d’un vieux google trad. Ou un système automatisé qui prend la maquette originale et passe chaque layer textuel à google trad.

  • [^] # Re: Et avec une vraie IA ?

    Posté par  . En réponse au journal [réflexion sur l'IA] Que nous dit le mois des fiertés raté de Microsoft ("Notre amour ne suce pas”)?. Évalué à 2. Dernière modification le 09 juin 2025 à 17:58.

    Pas trouvé les originaux pour "Notre amour ne suce pas" et "international pronoms jour", mais pour les trois images suivantes dans l’article (même prompt, premier essai) :

    résultat

    (OK, "militance" est bizarre ; chaîne de pensée pour le choix : "ADVOCACY" might be trickier, as "PLAIDOYER" is direct but a little ambiguous— "DÉFENSE" could work in activism contexts, or "MILITANCE" might sound better)

    résultat

    résultat

    (originaux pris ici)

  • # Et avec une vraie IA ?

    Posté par  . En réponse au journal [réflexion sur l'IA] Que nous dit le mois des fiertés raté de Microsoft ("Notre amour ne suce pas”)?. Évalué à 0.

    Ma première réflexion, c’est que je suis certain que les IA actuelles sont meilleures que ça, et que celui qui a fait ça a juste pris le modèle le moins cher sans se poser de question. Ce qui ne rate pas ; première tentative dans o3, juste en collant l’image et "Can you regenerate that image, but with the text translated in French ?" comme prompt :

    résultat

    L’IA n’a pas tenté de traduire l’expression "coming out", ce qui me semble refléter l’usage ?

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 1.

    Peut être ais je des failles dans mon raisonnement, mais je n'ai pas l'idée d'un seul domaine du monde réél où on prendrait un llm à qui on demanderait de rendre des services en totale autonomie sans que ça ne tourne rapidement en rond (dans le meilleur des cas), ou en hors sujet (plus probablement).

    As-tu connaissance de https://arxiv.org/abs/2503.14499, présenté informellement ici : https://x.com/METR_Evals/status/1902384481111322929 ?

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2. Dernière modification le 11 avril 2025 à 11:31.

    Les llms eux, peuvent raconter n'importe quoi et il n'y a aucune distinction de nature entre le vrai et le faux.

    Probablement largement faux : https://arxiv.org/abs/2310.06824

    Fais l’expérience avec Claude (ou un autre modèle avancé), demande lui une explication sur un domaine assez pointu mais que tu connais relativement bien, regarde le répondre correctement, prend un point de détails au hasard, demande lui "as-tu halluciné ce point". Il te répondra la plupart du temps "non, c’est un véritable concept".

    Tandis que quand il hallucine pour de vrai, si tu lui demandes "as-tu halluciné X", il te répond "oui, désolé".

    Il connaît donc bien la différence entre les deux.

    (à noter que je n’ai pas encore vu Claude 3.7 halluciner)

    Ce sont juste des statistiques.

    Largement faux, je renvoie à un de mes précédents commentaires : https://linuxfr.org/users/fdf/journaux/je-suis-perdu-et-je-pensais-m-etre-renseigne#comment-1983815

    Imaginons que tu ais le meilleur modèle qui commet une erreur 5% du temps et le moins bon (tout en bas des classements à la mode), qui en fait 15% du temps.

    Dans ce cas, le second modèle ne pourra faire que des tâches limitées à 4 étapes avant d’être à <50% de taux de réussite, tandis que le premier pourra faire 13 étapes. À 1%, tu arrives à 68 étapes.

    Donc oui, la qualité du modèle a une énorme influence sur l’horizon temporel des tâches qu’il est capable d’effectuer, bien plus qu’on ne le penserait en évaluant naïvement sur une étape unique.

    Tu le dis toi même, repérer ses propres erreur est un truc sur lequel les llms ont beaucoup de mal.

    Pour que ça arrive, il faut lui indiquer l'erreur (via la sortie d'un interpréteur, la réponse d'un appel de fonction ou une remarque humaine).

    Exactement comme les humains ? Je vois rarement des programmeurs dire "je me suis planté" avant que le compilateur / les tests unitaires / les tests manuels / la revue de code révèlent un problème.

    Ce qui est rigolo, c’est que je gère des devs juniors et Claude (sur mon équivalent de Claude Code), et que je vois exactement les mêmes problèmes dans les deux cas.

    Incapacité de remettre en question des hypothèses si elles ne sont pas pile poil dans l’instruction actuelle. Incapacité de trouver ses propres erreurs sans un input externe. Face à une erreur, sauter immédiatement à la résolution la plus évidente sans regarder un peu en arrière "est-ce vraiment aussi évident / le problème ne serait pas plus large ?".

    Un certain état d’esprit "Si le compilateur râle, c’est la faute du compilateur, je dois trouver un moyen de le cajoler" plutôt que "le compilateur pointe vers un réel problème" (par exemple en Typescript : "si j’ai une erreur de types, c’est forcément parce que les types sont mauvais, pas parce que le type checker a trouvé une erreur dans mon code, je dois trouver un moyen de réduire au silence cette erreur").

    Et de même que mes juniors finiront par s’améliorer, je ne vois aucune raison de supposer que ces problèmes sont inhérents aux LLMs en général et que la prochaine génération ne fera pas mieux à ce niveau

    conjugué à une passe récursive de contrôle critique du llm sur sa propre génération via des instructions spécifiques

    Je suis sceptique de cette solution en particulier. Ça n’a pas l’air d’aider énormément Claude à finir Pokemon, et en pratique Claude a du mal à faire dans la demi-mesure "peut-être que j’ai un peu tort". Mais peut-être est-ce spécifique à Claude, je devrai probablement me motiver et tester sérieusement Gemini.

    On a exactement le même problème avec les llms à qui l'on veut attribuer des propriétés émergentes alors que ça ne sont que des ajustements induits par leurs développeurs.

    Les créateurs sont régulièrement surpris par certains aspects de leur création (voir par exemple le dernier papier d’Anthropic sur le sujet, https://www.anthropic.com/research/tracing-thoughts-language-model), ce qui est pour moi pile poil dans la définition de "propriété émergente" ? Ou tu penses à autre chose ?

    Peut être ais je des failles dans mon raisonnement, mais je n'ai pas l'idée d'un seul domaine du monde réél où on prendrait un llm à qui on demanderait de rendre des services en totale autonomie sans que ça ne tourne rapidement en rond (dans le meilleur des cas), ou en hors sujet (plus probablement).

    Je ne dis pas que les wrappers sont entièrement inutiles. Je dis qu’ils sont destinés à être de plus en plus triviaux et comparativement (entre eux) peu impactants à mesure que la qualité des modèles progresse.

    Je comparerai les wrappers dans une "solution IA" à la CB chez les commerçants : quasi-obligatoire certes, mais c’est pas ça qui va faire le succès ou l’échec.

    Refaire Claude/Gemini/ChatGPT c’est très dur, ça demande énormément de ressources, la preuve personne n’arrive à les rattraper. Faire des wrappers autour c’est trivial, tu peux le faire toi-même en une semaine dans ton garage, et il y en à la pelle en open-source sur github. C’est pour ça que je ne considère pas ça comme "important", même si c’est nécessaire pour faire des agents : c’est un problème "résolu" et dont la solution est largement "connue" (pour ceux qui prennent la peine de s’intéresser au sujet bien sûr), contrairement aux modèles de la prochaine génération.

    Si tu préfères tourné comme ça : les modèles sont le facteur limitant (et donc critique), pas les wrappers.

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2.

    Par contre, de par leur nature probabiliste, ils ne seront jamais totalement fiables (encore une fois, à moins de changer de techno).

    Et surtout, une hallucination peut intoxiquer le contexte à tout moment et rendre les générations suivantes caduques, si bien que plus le contexte traîne en longueur, moins c'est fiable. Et ce ne sont pas des bugs, c'est directement induit par la techno.

    1. Les humains ne sont très probablement pas purement déterministes non plus. Ne serait-ce que pour pouvoir joueur à pierre-feuille-ciseaux.
    2. Un LLM peut être rendu déterministe. Il suffit de mettre la température à 0.
    3. Tu n’as pas besoin d’être totalement fiable, juste plus fiable. Plus tu es fiable, plus tu peux faire des tâches à horizons longs sans te planter
    4. Tu n’as pas même besoin d’être fiable, tu as juste besoin de dire oups, je me suis planté il y a 3 paragraphes. Un truc sur lequel les modèles actuels ont beaucoup de mal, mais qui n’est pas impossible de manière inhérente, et qui va probablement s’améliorer avec plus de RL/CoT.

    Si tu prends par exemple Whisper, qui est un des meilleurs modèles voix vers texte actuel et que tu fais une inférence avec du bruit blanc (ou du silence capté par un micro), il te génère quelque chose du genre "Sous-titrage Société Radio-Canada", ce qui est correct en soit (exemple type d'un problème d'alignement).

    Pour moi c’est clairement incorrect en soit ? Je serai modérément surpris que les modèles multimodaux récents (type Gemini 2.5) fassent la même erreur. Je serai très surpris que les modèles multimodaux de la prochaine génération la fassent.

    Pour l'effet de plateau, il est à mon sens indéniable que les meilleurs modèles ont des performances proches entre eux, avec une division en deux groupes (ceux qui raisonnent" comme les GPT o1 et DeepSeek-r1 et les autres, qui font du chat).

    Je pense que tu observes un phénomène réel qui est la saturation des benchmarks, et que les benchmarks se concentrent presque tous sur des tâches à horizon temporel court. Ajoute à ça contamination des données (les benchmarks discutés qui se retrouvent dans les données d’entraînement)

    Que les modèles soient suffisamment bons pour que tu aies du mal à discerner les différences de capacité en une discussion de 10 minutes ne signifie pas que cette différence de capacité n’existe pas ou n’est pas importante en pratique pour des "agents" réalisant des tâches pouvant durer 5-10 heures !

    (c’est soit dit en passant pour ça que Zvi se concentre de plus en plus sur les benchmarks privés pour rapporter les performances des modèles)

    Bref, tout ce que je voulais signifier, c'est qu'on ne parle toujours que des modèles alors qu'il faudrait à mon avis un peu plus parler d'applications pratiques.

    Et à mon sens, c’est tout à fait correct. Je pense qu’au final l’application importe peu.

    J’ai fait un équivalent perso (pour jouer) à Claude Code en un week end. Par "je", je veux dire Claude. Bien sûr, j’ai dû le guider, je suis repassé sur certaines parties du code, mais le résultat est entièrement utilisable.

    Plus le modèle est capable, plus créer l’application est à la portée du modèle lui même. Et moins le modèle a besoin des "rails" de l’application. À terme je ne vois pas comment l’application peut être un avantage compétitif fiable.

    Après, si dans "application" tu mets tout l’aspect juridique/commercial/etc… là oui, on va être d’accord. Mais le code du wrapper en lui-même ? non.

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2. Dernière modification le 10 avril 2025 à 16:19.

    Je… ne comprend pas ?

    Je n'ai pas dis qu'il n'y avait plus de marges de progression, mais la techno actuelle à base de transformeurs semble atteindre un plateau et le groupe des principaux modèles semblent avoir des capacités qui tendent à s'uniformiser.

    est très bien expliqué par :

    Seul OpenAI cherche à sortir du lot au prix de milliards d’investissements pour des résultats au mieux notables, mais sans rien révolutionner, et ne leur donnant que quelques mois d'avance.

    sans avoir besoin d’invoquer le moindre plateau ?

    Gemini 2.5 a été une amélioration relativement à 2.0, Sonnet 3.7 relativement à 3.5, etc. L’exception étant GPT 4.5. Quand les trois gros labos (OpenAI/Anthropic/DeepMind) publient, l’état de l’art avance. Quand ils ne publient pas, le reste rattrape le retard. On est actuellement dans la seconde situation.

    OpenAI n’a même pas encore rendu accessible o3, et a annoncé l’arrivée de o4-mini et GPT5 dans l’année. Pour pouvoir affirmer "on semble atteindre un plateau" (discours qu’honnêtement j’entends depuis GPT 3.5), il va falloir attendre ce que donnent ces modèles avant de pouvoir juger ?

  • [^] # Re: Et Mistral ?

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de mars 2025. Évalué à 2. Dernière modification le 09 avril 2025 à 23:51.

    L’annonce de Mistral-Small-3.1 n’est effectivement pas du tout entrée dans mon radar — c’est probablement dû à mes sources, exclusivement anglophones. Llama 4 sera pour avril (et effectivement, ça a l’air d’être une grosse déception).

    Je précise cela dans le sens où je pense que l'écart entre les modèles d'IA est de moins en moins important

    Au contraire. Sur des horizons long, la capacité d’un modèle à ne pas se "perdre soi-même", remettre en question des hypothèses, utiliser efficacement le contexte deviennent critique.

    Je trouve l’expérience https://www.twitch.tv/claudeplayspokemon (et dans une moindre mesure https://www.twitch.tv/gemini_plays_pokemon) extrêmement instructive sur ce point. En nous montrant des limitations des modèles qu’on atteint pas sur des tâches à horizon plus court.

    Malheureusement, tout ceci est très difficile à capturer sur les benchmarks.

  • # Re: IA Pratique

    Posté par  . En réponse au message IA Pratique. Évalué à 9. Dernière modification le 01 mars 2025 à 18:34.

    En 100% local et libre, je conseillerai Jan, qui fournit une interface, un .AppImage et un .deb, et une installation simple de modèles ouverts.

    llama.cpp si tu veux travailler en ligne de commande, intégrer avec des scripts, etc, mais on est déjà moins dans la pure découverte raide.

  • [^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?

    Posté par  . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 2.

    Quant à cette IA, elle a probablement vue passer cette énigme dans son corpus car elle tout de mme assez connue.

    Cette hypothèse n’explique pas qu’elle se foire avec le mode raisonnement désactivé et réussisse avec le mode raisonnement activé ?