Posté par volts (Mastodon) .
Évalué à 10 (+8/-0).
Dernière modification le 14 novembre 2025 à 11:52.
La citation qui tue de l'interview :
L’idée qu’il faille absolument le plus gros modèle pour atteindre son but est défaitiste. Avoir moins de ressources peut être un avantage dans la recherche pour découvrir de nouvelles façons de faire, des moyens plus efficaces. Il n’y a pas une unique manière de s’y prendre.
Et voilà.
À partir d'un innocent changement conceptuel pour des algorithmes qui pourrait rendre possible l’entraînement d'un modèle IA sur un banal ordiphone au lieu de le faire avec une armée de serveurs énergivores et spécialisés (donc hyper cher à investir et pas évident à revendre passé le panurgisme initial), on remet radicalement en cause les fondations technico-commerciales des Big Techs qui ont misé sur le mauvais cheval de LLM les yeux fermés au point de se mettre en danger de faillite.
Pour ces grands groupes qui ont pris religieusement pour doctrine "Move Fast and Break Things" et se font piéger par leur médiocre investissement en R&D, je n'ai plus qu'une réaction à exprimer :
"On a des modèles qui font pas mal de merde mais on espère qu'on peut extrapoler les lois d'échelles pour continuer à faire la même chose et que ça s'améliore exponentiellement" et en attendant essayer de valoriser par tous les moyens la merde générée et lançant une course aux armements ou le premier est supposé tout gagner …
C'est faire un moonshot (saut dans le vide en espérant alunir vivant dans un endroit incroyable) "des trucs incroyables vont émerger par magie". En embarquant le reste de l'univers de gré ou de force dans l'aventure, en espérant trôner au dessus du reste ensuite en roi du monde.
À partir d'un innocent changement conceptuel pour des algorithmes qui pourrait rendre possible l’entraînement d'un modèle IA sur un banal ordiphone au lieu de le faire avec une armée de serveurs énergivores
Enfin je ne crois pas que les TRM remettent en cause les LLM. De ce que je comprends, les TRM pourraient faire aussi bien pour moins cher sur des tâches spécialisées. Alors que ce qu'essaye de nous vendre Sam Altamn (lui et d'autres) c'est l'AGI (Intelligence Artificielle Générale) donc non-spécialisée. Mais peut-être que les TRM peuvent les aider à se rapprocher de leur fantasme : "On pourra ensuite penser à conceptualiser un modèle plus général qui choisirait le modèle spécialisé à exécuter pour une tâche."
Ce n'est pas ce qui est dit dans l'article.
D'une part, la chercheuse remet en cause le fait que les LLM puissent espérer atteindre l'AGI (principalement au motif que) :
La courbe de progression des modèles ne croît que logarithmiquement en fonction du temps et des avancées technologiques ; les rendements sont décroissants.
Elle rappelle que c'est aussi l'avis de Yann Le Cun.
D'autre part, les TRM ne sont pas conceptuellement spécialisés, mais cela semble plus efficace :
Est-ce qu’on retourne vers ce monde de modèles spécialisés par tâche ou d’architectures spécialisées pour différents types de tâches ?
Il y a un équilibre à trouver entre les deux.
Avec les LLM, on a trop penché vers une seule direction parce que le paradigme précédent était celui de la spécialisation […]
Je ne vois pas trop ce qu'il y a de contradictoire entre nos 2 commentaires. Je ne dis pas non plus que les LLM pourront atteindre l'AGI hein (c'est pour ça que j'ai parlé de "fantasme"). Mais à mon sens si il y a spécialisation c'est à l'opposé de "générale". Puis ma dernière phrase cite une piste pour faire du général avec des TRM : un modèle généraliste qui choisit le spécialiste à exécuter, sauf que ça ne dit pas sous quelle forme serait ce généraliste donc LLM ou un TRM spécialisé à choisir un autre TRM ?
Les LLM (Large Language Models) modernes implémentent déjà des routeurs (ou “gating networks”) permettant de sélectionner dynamiquement des sous-modèles spécialisés (“experts”) à partir d’un modèle généraliste — une architecture connue sous le nom de Mixture of Experts (MoE).
C’est notamment le cas avec Mixtral (de Mistral AI), un LLM “sparse MoE” dans lequel chaque couche est constituée de 8 « experts » (des blocs FFN), mais seulement 2 experts sont activés par token pendant l’inférence. (ictjournal.ch)
Grâce à ce mécanisme, bien que le modèle total ait environ 46,7 G paramètres, seuls ~13 G sont utilisés par token actif, ce qui permet de combiner expressivité et efficacité. (uplatz.com)
Des études ont montré que les experts de Mixtral peuvent être sélectionnés de manière “plutôt équilibrée” selon les tokens et qu’il existe des séquences de plusieurs tokens routées vers le même expert, ce qui suggère une certaine spécialisation fonctionnelle. (aclanthology.org)
L’architecture MoE repose donc sur deux composants fondamentaux :
1. Les experts, des sous-réseaux spécialisés apprenant chacun différentes “facettes” du problème. (birow.com)
2. Le routeur, qui, pour chaque token, décide quels experts activer — souvent selon un schéma “top‑k” (par exemple “top‑2” pour Mixtral) pour sélectionner les meilleurs experts. (ibm.com)
De plus, cette approche n’est pas seulement théorique : des recherches récentes explorent des variantes comme Self‑MoE, qui transforme un LLM monolithique en un système modulaire d’experts auto-spécialisés (MiXSE), en utilisant des données synthétiques générées par le modèle lui-même, avec un routage optimisé. (arxiv.org)
D’autres travaux examinent les défis du routage, comme la cohérence locale du routage, ce qui a des implications pour l’efficacité mémoire et le déploiement. (arxiv.org)
# Duniter save our souls
Posté par corentin38 (site web personnel) . Évalué à 4 (+4/-1).
C'est la Théorie Relative de la Monnaie, bien sûr !
[^] # Re: Duniter save our souls
Posté par volts (Mastodon) . Évalué à 3 (+1/-0).
Sur un malentendu, ça peut marcher pour augmenter le nombre des membres de la toile de confiance 😶
# La publi scientifique (enfin le preprint) est liée dans l'article
Posté par thoasm . Évalué à 5 (+2/-0).
C'est de plus en plus fréquent mais ça mérite quand même d'être souligné ce genre de choses : https://arxiv.org/pdf/2510.04871
L'interview reste intéressante, pour celleux qui seraient du genre à plonger dans les publis, offre une autre perspective.
# Ce n'est pas la taille qui compte
Posté par volts (Mastodon) . Évalué à 10 (+8/-0). Dernière modification le 14 novembre 2025 à 11:52.
La citation qui tue de l'interview :
Et voilà.
À partir d'un innocent changement conceptuel pour des algorithmes qui pourrait rendre possible l’entraînement d'un modèle IA sur un banal ordiphone au lieu de le faire avec une armée de serveurs énergivores et spécialisés (donc hyper cher à investir et pas évident à revendre passé le panurgisme initial), on remet radicalement en cause les fondations technico-commerciales des Big Techs qui ont misé sur le mauvais cheval de LLM les yeux fermés au point de se mettre en danger de faillite.
Pour ces grands groupes qui ont pris religieusement pour doctrine "Move Fast and Break Things" et se font piéger par leur médiocre investissement en R&D, je n'ai plus qu'une réaction à exprimer :
[^] # Re: Ce n'est pas la taille qui compte
Posté par thoasm . Évalué à 6 (+3/-0).
Défaitiste … et très paresseux en fait.
"On a des modèles qui font pas mal de merde mais on espère qu'on peut extrapoler les lois d'échelles pour continuer à faire la même chose et que ça s'améliore exponentiellement" et en attendant essayer de valoriser par tous les moyens la merde générée et lançant une course aux armements ou le premier est supposé tout gagner …
C'est faire un moonshot (saut dans le vide en espérant alunir vivant dans un endroit incroyable) "des trucs incroyables vont émerger par magie". En embarquant le reste de l'univers de gré ou de force dans l'aventure, en espérant trôner au dessus du reste ensuite en roi du monde.
[^] # Re: Ce n'est pas la taille qui compte
Posté par Faya . Évalué à 4 (+3/-1).
Enfin je ne crois pas que les TRM remettent en cause les LLM. De ce que je comprends, les TRM pourraient faire aussi bien pour moins cher sur des tâches spécialisées. Alors que ce qu'essaye de nous vendre Sam Altamn (lui et d'autres) c'est l'AGI (Intelligence Artificielle Générale) donc non-spécialisée. Mais peut-être que les TRM peuvent les aider à se rapprocher de leur fantasme : "On pourra ensuite penser à conceptualiser un modèle plus général qui choisirait le modèle spécialisé à exécuter pour une tâche."
[^] # Re: Ce n'est pas la taille qui compte
Posté par 42nodid . Évalué à 4 (+3/-0).
Ce n'est pas ce qui est dit dans l'article.
D'une part, la chercheuse remet en cause le fait que les LLM puissent espérer atteindre l'AGI (principalement au motif que) :
Elle rappelle que c'est aussi l'avis de Yann Le Cun.
D'autre part, les TRM ne sont pas conceptuellement spécialisés, mais cela semble plus efficace :
[^] # Re: Ce n'est pas la taille qui compte
Posté par Faya . Évalué à 4 (+2/-0).
Je ne vois pas trop ce qu'il y a de contradictoire entre nos 2 commentaires. Je ne dis pas non plus que les LLM pourront atteindre l'AGI hein (c'est pour ça que j'ai parlé de "fantasme"). Mais à mon sens si il y a spécialisation c'est à l'opposé de "générale". Puis ma dernière phrase cite une piste pour faire du général avec des TRM : un modèle généraliste qui choisit le spécialiste à exécuter, sauf que ça ne dit pas sous quelle forme serait ce généraliste donc LLM ou un TRM spécialisé à choisir un autre TRM ?
[^] # Re: Ce n'est pas la taille qui compte
Posté par Pol' uX (site web personnel) . Évalué à 10 (+9/-0).
Ça devient saignant les restrictions budgétaires à la sécu !
Adhérer à l'April, ça vous tente ?
# routeur
Posté par sputnick (site web personnel, Mastodon) . Évalué à 2 (+1/-0).
Les LLM (Large Language Models) modernes implémentent déjà des routeurs (ou “gating networks”) permettant de sélectionner dynamiquement des sous-modèles spécialisés (“experts”) à partir d’un modèle généraliste — une architecture connue sous le nom de Mixture of Experts (MoE).
C’est notamment le cas avec Mixtral (de Mistral AI), un LLM “sparse MoE” dans lequel chaque couche est constituée de 8 « experts » (des blocs FFN), mais seulement 2 experts sont activés par token pendant l’inférence. (ictjournal.ch)
Grâce à ce mécanisme, bien que le modèle total ait environ 46,7 G paramètres, seuls ~13 G sont utilisés par token actif, ce qui permet de combiner expressivité et efficacité. (uplatz.com)
Des études ont montré que les experts de Mixtral peuvent être sélectionnés de manière “plutôt équilibrée” selon les tokens et qu’il existe des séquences de plusieurs tokens routées vers le même expert, ce qui suggère une certaine spécialisation fonctionnelle. (aclanthology.org)
L’architecture MoE repose donc sur deux composants fondamentaux :
1. Les experts, des sous-réseaux spécialisés apprenant chacun différentes “facettes” du problème. (birow.com)
2. Le routeur, qui, pour chaque token, décide quels experts activer — souvent selon un schéma “top‑k” (par exemple “top‑2” pour Mixtral) pour sélectionner les meilleurs experts. (ibm.com)
De plus, cette approche n’est pas seulement théorique : des recherches récentes explorent des variantes comme Self‑MoE, qui transforme un LLM monolithique en un système modulaire d’experts auto-spécialisés (MiXSE), en utilisant des données synthétiques générées par le modèle lui-même, avec un routage optimisé. (arxiv.org)
D’autres travaux examinent les défis du routage, comme la cohérence locale du routage, ce qui a des implications pour l’efficacité mémoire et le déploiement. (arxiv.org)
On ne peut pas mettre d'array dans le string...
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.