Journal Modèle Mythos : Anthropic bluffe, en partie

Posté par  . Licence CC By‑SA.
19
12
avr.
2026

Anthropic a prétendu avoir un modèle si puissant (le bien nommé Mythos) qu'il est bien trop dangereux de le mettre à disposition du grand public et qu'ils donneraient en priorité l'accès aux grands noms de la tech (Amazon, Apple, Broadcom, Cisco, CrowdStrike, la fondation Linux, Microsoft entre autres). Selon eux, Mythos auraient trouvé "des milliers de zero-days critiques". Sauf que… pas vraiment :

Anthropic déclare qu’elle ne peut pas réellement confirmer que les milliers de bogues que Mythos affirme avoir trouvés sont tous de véritables vulnérabilités de sécurité critiques. Elle a simplement extrapolé ce chiffre à partir du fait que, dans environ 90 % des « 198 rapports de vulnérabilité examinés manuellement, [les] experts contractuels [d’Anthropic] étaient exactement d’accord avec l’évaluation de gravité de Claude ». source

De son côté, RedHat dit que

  • Des fonctionnalités comme ASLR et SELinux, qui font partie de la configuration par défaut de RHEL, rendent souvent un code vulnérable difficile à exploiter de manière significative dans un environnement de production.
  • Certaines vulnérabilités identifiées par l’IA sont en réalité des bugs fonctionnels sans véritable possibilité d’exploitation.
  • De nombreux problèmes, comme ceux liés au protocole NFS, sont considérés comme présentant un risque faible dans l’écosystème de Red Hat, car les daemons concernés sont rarement exposés à Internet lorsque l’architecture de sécurité est correctement conçue. (le gras est de moi)

Cela dit tout n'est pas à jeter et RedHat reconnaît que « Mythos, toutefois, représente plus qu’un déluge de rapports de vulnérabilités générés par l’IA ; c’est une voie potentielle vers l’industrialisation des cyberattaques. Il est en mesure d’abaisser la barrière à l’entrée pour la recherche avancée de bogues et l’enchaînement de vulnérabilités connexes. »

(Traduction collégiale de réseaux de neurones humains et artificiels)

  • # x

    Posté par  (site web personnel) . Évalué à 10 (+9/-1).

    Des fonctionnalités comme ASLR et SELinux, qui font partie de la configuration par défaut de RHEL, rendent souvent un code vulnérable difficile à exploiter de manière significative dans un environnement de production.

    pour selinux, je ne sais pas, mais pour le ASLR, le truc a l'air de réussir à bypass celui du noyal sans trop de problèmes.

    For example, the Linux kernel implements a defense technique called KASLR (kernel address space layout randomization) that illustrates why chaining is necessary. KASLR randomizes where the kernel’s code and data live in memory, so an adversary who can write to an arbitrary location in memory still doesn’t know what they’re overwriting: the write primitive is blind. But an adversary who also has a different read vulnerability can chain the two together: first, use the read vulnerability to bypass KASLR, and second, use the write vulnerability to change the data structure that grants them elevated privileges.

    We have nearly a dozen examples of Mythos Preview successfully chaining together two, three, and sometimes four vulnerabilities in order to construct a functional exploit on the Linux kernel. For example, in one case, Mythos Preview used one vulnerability to bypass KASLR, used another vulnerability to read the contents of an important struct, used a third vulnerability to write to a previously-freed heap object, and then chained this with a heap spray that placed a struct exactly where the write would land, ultimately granting the user root permissions.

    (y'a un exemple plus concret vachement plus bas dans l'article)

    Certaines vulnérabilités identifiées par l’IA sont en réalité des bugs fonctionnels sans véritable possibilité d’exploitation.

    certaines. Du coup ça peut vouloir dire que beaucoup de vulnérabilités identifies ont une véritable possibilité d'exploitation.

    De nombreux problèmes, comme ceux liés au protocole NFS, sont considérés comme présentant un risque faible dans l’écosystème de Red Hat, car les daemons concernés sont rarement exposés à Internet lorsque l’architecture de sécurité est correctement conçue.

    certes. mais une fois que mythos a réussi à pénétrer ton SI, il va peut-être finir par croiser ton nfs troué.

    Cf Stuxnet pour un exemple de machin capables de se propager loin dans un environnement assez exotique.

    (le gras est de moi)

    le gras c'est la vie

  • # Proces d’intention

    Posté par  . Évalué à 5 (+9/-6).

    Anthropic a prétendu avoir un modèle si puissant (le bien nommé Mythos) qu'il est bien trop dangereux de le mettre à disposition du grand public et qu'ils donneraient en priorité l'accès aux grands noms de la tech (Amazon, Apple, Broadcom, Cisco, CrowdStrike, la fondation Linux, Microsoft entre autres).

    Je ne vois pas ce qui mérite ce procès d’intention. Ils ont créé un produit qui détecte de manière efficace des failles. Au lieu de le sortir publiquement ils commencent par travailler avec les développeurs des logiciels concernés pour colmater le maximum de faille. La communication de Red Hat montre qu’ils trouvent effectivement des failles.

    Remplace Anthropic par la linux fundation et LLM par outils d’analyse statique et je suis sûr que tu trouverais la démarche plutôt saine.

    De nombreux problèmes, comme ceux liés au protocole NFS, sont considérés comme présentant un risque faible dans l’écosystème de Red Hat, car les daemons concernés sont rarement exposés à Internet lorsque l’architecture de sécurité est correctement conçue.

    On appelle ça de la sécurité périmétrique et c’est battu en brèche au profit de sécurité en profondeur.

    Je suis d’accord qu’Anthropic fait le buzz pour son compte, mais pour IBM aussi il s’agit de faire une communication d’entreprise.

    https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

    • [^] # Re: Proces d’intention

      Posté par  . Évalué à 3 (+3/-2).

      ce procès d’intention.

      où est le procès d’intention dans ce que tu cites ?

      • [^] # Re: Proces d’intention

        Posté par  . Évalué à 2 (+1/-1).

        Il prête à Anthropic des intentions qui ne sont pas corroborés par des faits.

        https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

        • [^] # Re: Proces d’intention

          Posté par  . Évalué à 6 (+5/-1).

          Est-ce que ce n'est pas ce qu'on voit depuis le boom de l'IA générative ? Et même avant ça, dans la communication des géants de la tech. Les whatmille annonces de l'AGI, la fortune et le retour de l'être aimé… Comme dit plus bas, Sam Altman nous a joué exactement la même musique à la sortie de GPT-2 ("trop dangereux pour le public"). Le sous-texte de "trop dangereux" c'est évidemment "super top puissant" donc on a envie de mettre les mains dessus. Anthropic donnait moins que les autres dans le sensationnalisme mais il semble qu'ils se soient pris au jeu de la communication, d'abord avec leurs pubs contre OpenAI au Superbowl et maintenant le suspens sur ce modèle "trop dangereux". En attendant leur flagship modèle (qui est dangereux lui aussi, puisque Opus 4.6 a découvert plusieurs failles, dans Firefox, Vim, ffmpeg, …) est boiteux depuis plusieurs semaines et ils ne semblent pas parvenir à absorber l'afflux de nouveaux comptes (ou alors ils ont attribué les ressources à Mythos ?).

          • [^] # Re: Proces d’intention

            Posté par  . Évalué à 4 (+4/-2).

            Est-ce que ce n'est pas ce qu'on voit depuis le boom de l'IA générative ? Et même avant ça, dans la communication des géants de la tech. Les whatmille annonces de l'AGI, la fortune et le retour de l'être aimé… Comme dit plus bas, Sam Altman nous a joué exactement la même musique à la sortie de GPT-2 ("trop dangereux pour le public"). Le sous-texte de "trop dangereux" c'est évidemment "super top puissant" donc on a envie de mettre les mains dessus.

            Donc c’est un à priori. Maintenant est-ce que IBM et les autres ont l’air de dire que c’est du bluff ou plutôt de précisé le niveau de dangerosité ?

            Anthropic donnait moins que les autres dans le sensationnalisme mais il semble qu'ils se soient pris au jeu de la communication, d'abord avec leurs pubs contre OpenAI au Superbowl et maintenant le suspens sur ce modèle "trop dangereux".

            Je ne sais pas d’où tu sors ça. Cet aspect sécuritaire est l’une des raisons du départ des gens de chez OpenAI pour fonder Anthropic. Ca fait bien longtemps qu’ils publient un « system card » de leur modèle à chaque sortie (comme celui d’Opus 4.6). Je ne sais pas comment tu peut affirmer qu’ils on moins de communication dans ce sens que les autres c’est précisément l’inverse.

            Je suis d’accord qu’il peut y avoir de la communication là dedans, mais pour le moment je n’ai pas vu de démenti de la part des entreprises qui collaborent au projet glasswing.

            En attendant leur flagship modèle (qui est dangereux lui aussi, puisque Opus 4.6 a découvert plusieurs failles, dans Firefox, Vim, ffmpeg, …) est boiteux depuis plusieurs semaines et ils ne semblent pas parvenir à absorber l'afflux de nouveaux comptes (ou alors ils ont attribué les ressources à Mythos ?).

            Je ne comprends pas où tu veut en venir. Leur modèle précédent trouvait déjà des failles donc en quoi c’est du bluff de dire que le suivant en trouve plus ? Je ne comprends pas quelle est ta conclusion du fait qu’Opus 4.6 aurait baissé en qualité ? Quel est le lien avec l’éventuel bluff au sujet de Mythos ?

            Je suis d’accord qu’il y a beaucoup de communication à la con, mais je ne crois pas que c’est en étant approximatif qu’on améliore les choses.

            https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

            • [^] # Re: Proces d’intention

              Posté par  . Évalué à 6 (+4/-0).

              Je ne sais pas comment tu peut affirmer qu’ils on moins de communication dans ce sens que les autres c’est précisément l’inverse.

              Je parle spécifiquement de la communication avec un côté sensationnaliste. Les pubs au Super Bowl ça n'avait rien à voir avec l'aspect sécuritaire. Ici pour Mythos c'est le cas mais 👇

              Leur modèle précédent trouvait déjà des failles

              Ils ne l'ont pas réservé à un groupe restreint pour autant, ils ont même fait le contraire, ils ont communiqué sur les failles trouvées par Opus 4.6 alors qu'il était déjà aux mains de tout le monde. Donc je me demande pourquoi Opus 4.6 n'a pas eu le même traitement que Mythos.

              je ne crois pas que c’est en étant approximatif qu’on améliore les choses.

              Anthropic a commencé par dire : "Mythos Preview has already found thousands of high-severity vulnerabilities, including some in every major operating system and web browser." Ensuite on apprend (cf. le 1er lien du journal) que ce n'est qu'un calcul statistique : "Anthropic can't actually confirm that all of the thousands of bugs Mythos claims to have found are actually critical security vulnerabilities. It's just extrapolated that number from having found in around 90% of the "198 manually reviewed vulnerability reports, [Anthropic's] expert contractors agreed with Claude’s severity assessment exactly."

              Le "bluffe" du titre c'était ça. Je rappelle que j'ai ajouté :

              • "en partie" (dans le titre, volontairement, donc ça dit bien qu'il y a sûrement du vrai quelque part dedans)
              • que cet outil reste un danger réel pour « l’industrialisation des cyberattaques » (dans le corps, les mots de RedHat)

              Donc je ne nie pas l'éventuel danger que pourrait représenter Mythos (comment le pourrais-je vu que je n'y ai pas accès…), je cherche à trier les effets d'annonces des dangers identifiés.

              • [^] # Re: Proces d’intention

                Posté par  . Évalué à 3 (+2/-1).

                Je parle spécifiquement de la communication avec un côté sensationnaliste. Les pubs au Super Bowl ça n'avait rien à voir avec l'aspect sécuritaire. Ici pour Mythos c'est le cas mais 👇

                Ben tu parlais entre autre de l'aspect sécuritaire :

                Anthropic donnait moins que les autres dans le sensationnalisme mais il semble qu'ils se soient pris au jeu de la communication, d'abord avec leurs pubs contre OpenAI au Superbowl et maintenant le suspens sur ce modèle "trop dangereux".

                Et comme je t'ai dit ça a toujours été le cas pour tous leurs modèles.

                Donc je me demande pourquoi Opus 4.6 n'a pas eu le même traitement que Mythos.

                Non tu ne te demande pas pourquoi. Tu présume qu'ils bluffent. C'est bien pour ça que je parle de procès d'intention. Pourquoi est-ce leur comportement est différent peut s'expliquer d'autres manières. Parce qu'il le fait plus efficacement ? Par expérience du précédent ?

                Anthropic a commencé par dire

                Anthropic a commencé par publier le system card 3 jours avant l'article dont tu parles. Le même jour que le system card ils ont publié cet article https://red.anthropic.com/2026/mythos-preview/ qui est probablement plus digeste.

                Donc je ne nie pas l'éventuel danger que pourrait représenter Mythos (comment le pourrais-je vu que je n'y ai pas accès…), je cherche à trier les effets d'annonces des dangers identifiés.

                Tu commence par la conclusion qui n'est étayé par rien de ce que tu donne comme contenu. Elle vient en partie de tes à priori (et du fais qu'Opus 4.6 aurait baissé en qualité, j'ai pas compris le lien que tu fais). La discussion sur la méthode statistique utilisée peut être intéressante, mais ce n'est pas ce que tu fais.

                https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

                • [^] # Re: Proces d’intention

                  Posté par  . Évalué à 3 (+2/-1).

                  Le seul truc que j'ai mis en gras pour expliquer le choix du mot bluffe ("Anthropic can't actually confirm that all of the thousands of bugs Mythos claims to have found are actually critical security vulnerabilities.") tu ne l'as pas cité. Bon je pense qu'on a fait le tour…

                  Elle vient en partie de tes à priori

                  Sûrement

        • [^] # Re: Proces d’intention

          Posté par  . Évalué à 1 (+0/-1).

          Je sais ce qu'est un procès d'intention.
          Mais dans ce que tu cités, où est-il ?
          Je n'y lis que des faits.

          • [^] # Re: Proces d’intention

            Posté par  . Évalué à 4 (+2/-0).

            Les seuls faits que je vois contreviennent à l’idée qu’Anthropic blufferait.

            Anthropic indique comment ils ont évalué la dangerosité de leur produit et Red Hat confirme qu’ils ont trouvé des failles mais considèrent qu’une sécurité périmétrique est suffisante. On peut éventuellement voir un débat sur la dangerosité effective du modèle, mais un bluff non rien ne l’étaye.

            Apparemment c’est bien un à priori (https://linuxfr.org/users/faya/journaux/modele-mythos-anthropic-bluffe-en-partie#comment-2019067) plus que des faits.

            https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

            • [^] # Re: Proces d’intention

              Posté par  . Évalué à 3 (+1/-0).

              Désolé d'insister mais dans

              Anthropic a prétendu avoir un modèle si puissant (le bien nommé Mythos) qu'il est bien trop dangereux de le mettre à disposition du grand public et qu'ils donneraient en priorité l'accès aux grands noms de la tech (Amazon, Apple, Broadcom, Cisco, CrowdStrike, la fondation Linux, Microsoft entre autres).

              À quel moment tu vois qu'il est suggéré que "Anthropic blufferait" ?

              Le terme utilisé ici est "a prétendu". Dans une démarche scientifique, étant donné qu'on a accès qu'à leur propre rapport, qu'on ne peut pas reproduire l'expérience, ça me paraît un terme approprié.

              Maintenant si tu as identifié un "procès d'intention", n'hésite pas à citer les bons passages qui étaye ce que tu dis.

              • [^] # Re: Proces d’intention

                Posté par  . Évalué à 6 (+5/-0).

                Bah le titre du journal quand même, non ?

                • [^] # Re: Proces d’intention

                  Posté par  . Évalué à 5 (+3/-0).

                  OK
                  C'est plus clair.

                  À l'inverse, boire les paroles d'une boite de la tech', ça parait très crédule. Cf le commentaire qui me paraît bien plus pragmatique.

                  • [^] # Re: Proces d’intention

                    Posté par  . Évalué à 3 (+1/-0).

                    À l'inverse, boire les paroles d'une boite de la tech', ça parait très crédule.

                    Pourquoi ça devrait être manichéen ? Beaucoup de la communication d’Anthropic est de la pure merde par exemple quand il s’agit de la suppression du métier d’ingénieur. Ils embauches des ingénieurs en les payants des centaines de milliers de dollars tout en expliquant que ça ne sert plus à rien.

                    C’est juste que là rien ne porte à croire que la capacité à trouver des failles ne soit pas un sujet et que je trouve que la méthode de disclosure n’est pas absurde.

                    Est-ce que Mythos mange des ressources qui pourrait être alloué à Opus ? Certainement mais je ne vois pas en quoi c’est un problème.

                    Est-ce que je trouve que la démarche de se demander si son produit a un impact sur la sécurité et collaborer avec des boites pour corriger des failles ça ne me parait pas idiot et un précédent intéressant. Je trouve que ce serait une bonne chose que l’entreprise qui arrive à créer un ordinateur quantique suffisamment puissant prenne le parti de collaborer avec différents organismes comme le NIST avant de vendre l’utilisation de ce dernier au tout venant.

                    https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

                    • [^] # Re: Proces d’intention

                      Posté par  . Évalué à 3 (+1/-0).

                      C’est juste que là rien ne porte à croire que la capacité à trouver des failles ne soit pas un sujet

                      Heu, c'est un renversement de la preuve qui me parait largement complaisant. Sauf erreur de ma part, aucun acteur tiers n'a confirmé les résultats.

                      et que je trouve que la méthode de disclosure n’est pas absurde.

                      Confier ce soit-disant sur-puissant modèle à quelques big tech américaines, c'est peut être pas absurde, mais clairement discutable. Il y a bien la Linux Fundation …

                      • [^] # Re: Proces d’intention

                        Posté par  . Évalué à 1 (+1/-2).

                        Aucun des trois gros (Anthropic/OpenAI/DeepMind) n’a jamais été surpris à mentir de la sorte sur le sujet, encore moins un mensonge aussi grossier. Si c’est un mensonge, on le saura très rapidement, devant l’absence de CVEs/correctifs. Ce serait de très loin le plus gros scandale dans l’histoire d’Anthropic. Un mensonge qui impliquerait la connivence de nombreux autres acteurs. Dont, comme tu l’indiques, la Linux Foundation.

                        Le doute me semble extrêmement déraisonnable dans cette situation.

                        • [^] # Re: Proces d’intention

                          Posté par  . Évalué à 3 (+1/-0).

                          Pas un mensonge proprement dit. Plus une potentielle exagération parce que le modèle a sûrement bien renvoyé "thousands of additional high- and critical-severity vulnerabilities" mais les vérifications n'ont portée (à ce qu'on sait pour l'instant) que sur 198 d'entre elles. Et 89% ont été jugée sérieuses. Parmi celles-ci certaines ne semblent pas vraiment exploitables (les exemples de Red Hat). Après même si ils avaient dit " hundreds" à la place de "thousands" ça vaut le coup de laisser le temps aux devs de les corriger.

                        • [^] # Re: Proces d’intention

                          Posté par  . Évalué à 2 (+0/-0).

                          Aucun des trois gros (Anthropic/OpenAI/DeepMind)

                          Petite question, pour toi qui semble particulièrement à jour sur le sujet, Google ne fait pas partie des "gros" pour toi ? Son Gemini 3 au niveau du code est bien souvent aussi capable qu'Opus 4.6 ou GPT 5.4 (usage en CLI pour les 3, je n'ai pas testé Gemini dans d'autres contextes).

  • # Je ne vois rien à reprocher

    Posté par  (site web personnel) . Évalué à 9 (+9/-2).

    Je ne vois rien à reprocher:
    - extrapoler à partir d'un échantillon de 200 bugs où 90% sont avérés est un procédé valide. À supposer qu'il n'y a pas eu de cherry picking ou de biais de sélection évidemment
    - bugs non exploités/exploitables: la publication d'un exploit est évidemment un signal fort de la criticité une faille, mais n'a jamais été un pré requis nécessaire pour tout projet sérieux. Les méthodes mentionnées dans le journal (ASLR et cie) sont toujours des bâtons dans les roues pour créer un exploit, mais avoir une faille qui permet de faire le premier pas est toujours un risque à combler.
    - pas une faille, un bug fonctionnel: quand in voit les récentes CVE sur la version Rust de sudo, on se dit la même chose. Pourtant elles ont bien été considérées comme des failles de sécurité. Parce que rapportées par des humains?

    Avant de chercher à tout prix à minimiser l'exploit, il faut se poser la question "que dirais-je si ça venait d'un humain ?". À noter qu'il y'a un an ou deux, si une IA n'avait trouvé ne serait-ce qu'une seule faille ça aurait été considéré un résultat sensationnel. Rien que ça montre à quel point nos attentes vis à vis de ces systèmes évoluent vite.

    • [^] # Re: Je ne vois rien à reprocher

      Posté par  . Évalué à 6 (+4/-0).

      Bon, déjà l'exploit on ne l'a pas vu on a que des échos. Mais dans tous les cas je veux juste faire la part des choses entre les effets d'annonce et les risques réels. J'ai d'ailleurs pris soin d'ajouter un paragraphe "tout n'est pas à jeter" (dans la com, je réalise que ça peut laisser penser que je parle de jeter le modèle… My bad, c'est mal dit).

      Rappel : depuis 2019 Sam Altman nous avait déjà fait le coup de « too dangerous to share » Mon "bluffe" du titre c'est ça. "Trop dangereux" c'est aussi un argument marketing pour inciter la masse à se jeter dessus quand ils vont le libérer (et ils feraient mieux de ne pas traîner parce que Opus 4.6 est devenu plutôt très mauvais depuis quelques temps et quantité de gens qui avaient migré vers Anthropic suite à la débâcle avec le Pentagone retournent sur Codex.)

      • [^] # Re: Je ne vois rien à reprocher

        Posté par  . Évalué à 1 (+0/-1). Dernière modification le 14 avril 2026 à 21:27.

        En 2019 OpenAI était encore un non-profit (du moins jusqu’en mars), et l’IA un domaine niche dont presque aucun d’entre vous n’avait entendu parler, et sans aucune offre commerciale à pousser (si ma mémoire ne me trompe pas, la première offre commerciale d’OpenAI c’est GPT-3).

        Il n’y avait aucune manœuvre marketing ; c’était le premier LLM capable de produire des textes tenant vaguement la route, dans un contexte politique/social où la préoccupation principale était la désinformation, y compris de la part d’adversaires géopolitiques tels que la Russie. L’annonce était extrêmement claire sur la problématique et l’intention d’OpenAI, et n’a pas utilisé de langage vague et marketing tel que « too dangerous to share », mais bel et bien des raisons spécifiques et compréhensibles dans le contexte : « Due to concerns about large language models being used to generate deceptive, biased, or abusive language at scale. […] This decision, as well as our discussion of it, is an experiment: while we are not sure that it is the right decision today, we believe that the AI community will eventually need to tackle the issue of publication norms in a thoughtful way in certain research areas. »

        Et de même aujourd’hui, le message est clair et spécifique : Opus 4.6 était capable de trouver des failles, mais rarement de les exploiter en contexte réel (passer d’un PoC à un exploit est une tâche loin d’être triviale), Mythos est capable de créer des exploits 0-day à partir de ces failles. Anthropic considère, et je ne vois personne disputer ce fait, que le secteur de la sécurité informatique n’est absolument pas préparé à la publication en accès public d’un modèle permettant ça.

        • [^] # Re: Je ne vois rien à reprocher

          Posté par  . Évalué à 3 (+1/-0).

          sans aucune offre commerciale à pousser (si ma mémoire ne me trompe pas, la première offre commerciale d’OpenAI c’est GPT-3).

          Tu as raison ! My bad, je pensais qu'ils l'avaient dit pour la sortie d'une offre commerciale.

  • # trop dangereux ou trop coûteux

    Posté par  (Mastodon) . Évalué à 8 (+5/-0).

    Je crois que derrière les trop dangereux se cache souvent une bête question de gestion des coûts d'opérations et de temps de mise en production. Modèle trop gros et trop coûteux car demanderait une infra (datacenters, serveurs, ram) et des ressources énergétiques qu'ils n'ont pas pour offrir au grand publique maintenant.

    • [^] # Re: trop dangereux ou trop coûteux

      Posté par  . Évalué à 5 (+3/-0).

      Ça ça me paraît crédible. Et ça pourrait expliquer d'autres trucs. En particulier le silence d'Anthropic alors que tous les devs hurlent que Opus 4.6 n'est plus que l'ombre de lui-même. Il y a des benchmarks qui sortent chaque jour de gens qui montrent comment il est devenu plus bête mais silence complet côté fournisseur à part "Attendez on a un truc monstrueux sur le feu là." Sauf que ton abonnement ne te donne pas accès au truc monstrueux, juste à celui qui était au-dessus des autres mais est maintenant un boulet (enfin apparemment ça dépend de l'heure…)
      Et là ça rejoint les discussions sur la pérennité de ces gouffres d'énergie distribués à vil prix. À un moment le réel doit nous rattraper, les prix augmenter ou les features/ressources diminuer.

  • # Préparation à l'IPO

    Posté par  (site web personnel) . Évalué à 6 (+3/-0).

    Je ne peut pas juger du fait que Mythos marche ou pas, j'ai pas accés, mais chercher des vulnérabilités, c'est du pattern matching, et j'ai tendance à penser qu'un LLM est pluton pas mal pour ça. Ensuite, la question est de savoir si c'est vraiment mieux que tout le reste du marché (cad soit les plus petits LLM, soit les outils classiques), et dans tout les cas, je note qu'un revendeur de service qui fait comme Cartman dans CartmanLand, c'est toujours louche, surtout dans un milieu prompt à l'hyperbole et au bullshit comme celui de la sécurité informatique.

    Et vu que la boite va officiellement entrer en bourse dans quelques mois, il faut bien entretenir le buzz (surtout face aux news négatives qui risquent de leur tomber dessus, genre l'affaire avec le pentagone, et tout le reste)

  • # Et sinon, le nom, on en parle ?

    Posté par  . Évalué à 3 (+1/-0).

    Plus c'est gros, plus ça passe ?

  • # Ok, on est sur LinuxFR

    Posté par  . Évalué à 4 (+2/-0).

    Mais c'est bizarre: j'ai l'impression que la seule métrique c'est de lever des bugs ou pondre du code.

    L'IA, on en met partout non ?

    "Si tous les cons volaient, il ferait nuit" F. Dard

    • [^] # Re: Ok, on est sur LinuxFR

      Posté par  . Évalué à 4 (+1/-0).

      C'est des domaines où c'est relativement simple d'avoir des éléments objectifs d'évaluation automatisables. Sur l'échelle de l'IA c'est entre le jeu comme les échecs ou tout est évaluable trivialement sur la correction d'une partie et c'est "gagné, perdu ou nul" et c'est tout, là t'as des batteries de tests par exemple éventuellement en info pour vaguement objectiver des patchs sur une base de code qui peuvent passer ou pas, et (une infinité de) autres domaines où virtuellement faudrait refaire une infinité d'évaluations ou tout revérifier à la main pour redonner du feedback.

      C'est donc logique que ce soit leur vitrine, et il y a de l'argent à se faire, bien qu'évidemment malhonnête de laisser penser que les progrès sont forcément identiques dans "toute" l'infinité d'applications possibles et très difficiles à tester correctement et exhaustivement. Logiquement ça implique par contre des progrès moins rapide, cette difficulté de tester automatiquement et donc d'avoir du feedback sur les erreurs. Mais c'est pas explicite sur la plaquette.

      • [^] # Re: Ok, on est sur LinuxFR

        Posté par  . Évalué à 3 (+1/-0).

        Oui, je suis bien d'accord avec toi.

        Le truc, c'est que l'argument "trop dangereux pour être laissé entre toutes les mains" est centré là dessus (<=> le code).
        Et pour la recherche dans le domaine pharmaceutique ou pour l'industrie aéronautique (exemples choisis car ils disposent eux aussi d'énormes moyens et peuvent payer), en quoi cela pourrait il être dangereux ?

        "Si tous les cons volaient, il ferait nuit" F. Dard

        • [^] # Re: Ok, on est sur LinuxFR

          Posté par  . Évalué à 3 (+0/-0).

          Ça me fait penser à la vidéo yt de « Looking glass universe» ou la tenancière explique pourquoi l'IA ne guériras pas le cancer : ce qui prend la majorité du temps c'est … les essais cliniques, et c'est impensable de s'en passer. Ça permet éventuellement de gagner un peu de temps sur l'identification de molécules candidates, d'après elle.

    • [^] # Re: Ok, on est sur LinuxFR

      Posté par  (site web personnel) . Évalué à 4 (+2/-0).

      j'ai l'impression que la seule métrique c'est de lever des bugs ou pondre du code.

      Ça en fait déjà 2 du coup. Y'a aussi le nombre de mots écrits dans des documents, le nombre d'email de spam envoyés, etc…

      Oui, on en met partout. Et oui, avec des métriques débiles.

      Il n'y a qu'a voir comment on mesure les datacenters depuis quelques temps: en GW. Comme si au final, ce qui importait c'était la capacité à gaspiller de l'énergie, pas la puissance de calcul.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.