Lien Que sont les « TRM » ? Après les LLM, comprendre la future révolution de l’IA

Posté par Colargol (Mastodon) le 13 novembre 2025 à 22:27.

Étiquettes :

nov.

2025

https://legrandcontinent.eu/fr/2025/11/12/que-sont-les-trm-apres-les-llm-comprendre-la-future-revolution-de-lia/

# Duniter save our souls

Posté par corentin38 (site web personnel) le 14 novembre 2025 à 10:30. Évalué à 4 (+4/-1).

C'est la Théorie Relative de la Monnaie, bien sûr !

Répondre
- [^] # Re: Duniter save our souls
  
  Posté par volts (Mastodon) le 14 novembre 2025 à 12:02. Évalué à 3 (+1/-0).
  
  Sur un malentendu, ça peut marcher pour augmenter le nombre des membres de la toile de confiance 😶
  
  Répondre
# La publi scientifique (enfin le preprint) est liée dans l'article

Posté par thoasm le 14 novembre 2025 à 10:44. Évalué à 5 (+2/-0).

C'est de plus en plus fréquent mais ça mérite quand même d'être souligné ce genre de choses : https://arxiv.org/pdf/2510.04871

L'interview reste intéressante, pour celleux qui seraient du genre à plonger dans les publis, offre une autre perspective.

Répondre
# Ce n'est pas la taille qui compte

Posté par volts (Mastodon) le 14 novembre 2025 à 11:49. Évalué à 10 (+8/-0). Dernière modification le 14 novembre 2025 à 11:52.

La citation qui tue de l'interview :

L’idée qu’il faille absolument le plus gros modèle pour atteindre son but est défaitiste. Avoir moins de ressources peut être un avantage dans la recherche pour découvrir de nouvelles façons de faire, des moyens plus efficaces. Il n’y a pas une unique manière de s’y prendre.

Et voilà.

À partir d'un innocent changement conceptuel pour des algorithmes qui pourrait rendre possible l’entraînement d'un modèle IA sur un banal ordiphone au lieu de le faire avec une armée de serveurs énergivores et spécialisés (donc hyper cher à investir et pas évident à revendre passé le panurgisme initial), on remet radicalement en cause les fondations technico-commerciales des Big Techs qui ont misé sur le mauvais cheval de LLM les yeux fermés au point de se mettre en danger de faillite.

Pour ces grands groupes qui ont pris religieusement pour doctrine "Move Fast and Break Things" et se font piéger par leur médiocre investissement en R&D, je n'ai plus qu'une réaction à exprimer :

Répondre
- [^] # Re: Ce n'est pas la taille qui compte
  
  Posté par thoasm le 14 novembre 2025 à 12:19. Évalué à 6 (+3/-0).
  
  Défaitiste … et très paresseux en fait.
  
  "On a des modèles qui font pas mal de merde mais on espère qu'on peut extrapoler les lois d'échelles pour continuer à faire la même chose et que ça s'améliore exponentiellement" et en attendant essayer de valoriser par tous les moyens la merde générée et lançant une course aux armements ou le premier est supposé tout gagner …
  
  C'est faire un moonshot (saut dans le vide en espérant alunir vivant dans un endroit incroyable) "des trucs incroyables vont émerger par magie". En embarquant le reste de l'univers de gré ou de force dans l'aventure, en espérant trôner au dessus du reste ensuite en roi du monde.
  
  Répondre
- [^] # Re: Ce n'est pas la taille qui compte
  
  Posté par Faya le 14 novembre 2025 à 14:20. Évalué à 4 (+3/-1).
  
  À partir d'un innocent changement conceptuel pour des algorithmes qui pourrait rendre possible l’entraînement d'un modèle IA sur un banal ordiphone au lieu de le faire avec une armée de serveurs énergivores
  
  Enfin je ne crois pas que les TRM remettent en cause les LLM. De ce que je comprends, les TRM pourraient faire aussi bien pour moins cher sur des tâches spécialisées. Alors que ce qu'essaye de nous vendre Sam Altamn (lui et d'autres) c'est l'AGI (Intelligence Artificielle Générale) donc non-spécialisée. Mais peut-être que les TRM peuvent les aider à se rapprocher de leur fantasme : "On pourra ensuite penser à conceptualiser un modèle plus général qui choisirait le modèle spécialisé à exécuter pour une tâche."
  
  Répondre
  - [^] # Re: Ce n'est pas la taille qui compte
    
    Posté par 42nodid le 14 novembre 2025 à 17:01. Évalué à 4 (+3/-0).
    
    Ce n'est pas ce qui est dit dans l'article.
    D'une part, la chercheuse remet en cause le fait que les LLM puissent espérer atteindre l'AGI (principalement au motif que) :
    
    La courbe de progression des modèles ne croît que logarithmiquement en fonction du temps et des avancées technologiques ; les rendements sont décroissants.
    
    Elle rappelle que c'est aussi l'avis de Yann Le Cun.
    
    D'autre part, les TRM ne sont pas conceptuellement spécialisés, mais cela semble plus efficace :
    
    Est-ce qu’on retourne vers ce monde de modèles spécialisés par tâche ou d’architectures spécialisées pour différents types de tâches ?
    
    Il y a un équilibre à trouver entre les deux.
    
    Avec les LLM, on a trop penché vers une seule direction parce que le paradigme précédent était celui de la spécialisation […]
    
    Répondre
    - [^] # Re: Ce n'est pas la taille qui compte
      
      Posté par Faya le 14 novembre 2025 à 20:59. Évalué à 4 (+2/-0).
      
      Je ne vois pas trop ce qu'il y a de contradictoire entre nos 2 commentaires. Je ne dis pas non plus que les LLM pourront atteindre l'AGI hein (c'est pour ça que j'ai parlé de "fantasme"). Mais à mon sens si il y a spécialisation c'est à l'opposé de "générale". Puis ma dernière phrase cite une piste pour faire du général avec des TRM : un modèle généraliste qui choisit le spécialiste à exécuter, sauf que ça ne dit pas sous quelle forme serait ce généraliste donc LLM ou un TRM spécialisé à choisir un autre TRM ?
      
      Répondre
      - [^] # Re: Ce n'est pas la taille qui compte
        
        Posté par Pol' uX (site web personnel) le 14 novembre 2025 à 22:32. Évalué à 10 (+9/-0).
        
        un généraliste qui choisit le spécialiste à exécuter,
        
        Ça devient saignant les restrictions budgétaires à la sécu !
        
        Adhérer à l'April, ça vous tente ?
        
        Répondre
# routeur

Posté par sputnick (site web personnel, Mastodon) le 22 novembre 2025 à 11:35. Évalué à 2 (+1/-0).

Les LLM (Large Language Models) modernes implémentent déjà des routeurs (ou “gating networks”) permettant de sélectionner dynamiquement des sous-modèles spécialisés (“experts”) à partir d’un modèle généraliste — une architecture connue sous le nom de Mixture of Experts (MoE).

C’est notamment le cas avec Mixtral (de Mistral AI), un LLM “sparse MoE” dans lequel chaque couche est constituée de 8 « experts » (des blocs FFN), mais seulement 2 experts sont activés par token pendant l’inférence. (ictjournal.ch)

Grâce à ce mécanisme, bien que le modèle total ait environ 46,7 G paramètres, seuls ~13 G sont utilisés par token actif, ce qui permet de combiner expressivité et efficacité. (uplatz.com)

Des études ont montré que les experts de Mixtral peuvent être sélectionnés de manière “plutôt équilibrée” selon les tokens et qu’il existe des séquences de plusieurs tokens routées vers le même expert, ce qui suggère une certaine spécialisation fonctionnelle. (aclanthology.org)

L’architecture MoE repose donc sur deux composants fondamentaux :

1. Les experts, des sous-réseaux spécialisés apprenant chacun différentes “facettes” du problème. (birow.com)

2. Le routeur, qui, pour chaque token, décide quels experts activer — souvent selon un schéma “top‑k” (par exemple “top‑2” pour Mixtral) pour sélectionner les meilleurs experts. (ibm.com)

De plus, cette approche n’est pas seulement théorique : des recherches récentes explorent des variantes comme Self‑MoE, qui transforme un LLM monolithique en un système modulaire d’experts auto-spécialisés (MiXSE), en utilisant des données synthétiques générées par le modèle lui-même, avec un routage optimisé. (arxiv.org)

D’autres travaux examinent les défis du routage, comme la cohérence locale du routage, ce qui a des implications pour l’efficacité mémoire et le déploiement. (arxiv.org)

On ne peut pas mettre d'array dans le string...

Répondre

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.