Andréas Livet a écrit 307 commentaires

[^] # Re: T'as testé une conf hybride CPU/GPU

Posté par Andréas Livet le 07 juillet 2026 à 23:48. En réponse au journal Auto-héberger ses IA : Matériel et optimisation de l'inférence. Évalué à 3 (+1/-0).

Super, merci pour les retours et les explications, je n'avais pas en tête que c'était potentiellement des experts différents pour chaque token, c'est vrai que c'est de réseau auto régressif et donc tout se rejoue à chaque fois. J'imagine que dans la pratique c'est peu ou prou les mêmes experts quand on est sur une même tâche, mais que ça peut en effet bouger.

Bon, donc ces modèles ne sont pas encore pleinement utilisable sur du matériel "normal"… peut-être qu'un jour ça le sera ? Ou peut-être que les prix des composants vont baisser un jour et se spécialiser de plus en plus pour exécuter des modèles de ce genre ?

Ça me fait bizarre car pendant 15 ans j'ai quelque part lutter contre cette course à la performance, au renouvellement des machines etc. Et j'en viens à souhaiter qu'on fasse de nouvelles machines plus performantes et moins chères… je crois que je suis tombé dans le piège de l'IA…

Répondre
[^] # Re: vulkan me semblait plus rapide que rocm

Posté par Andréas Livet le 07 juillet 2026 à 11:01. En réponse au journal Auto-héberger ses IA : Matériel et optimisation de l'inférence. Évalué à 3 (+1/-0).

Moi j'avoue que ça m'a étonné.
Cuda et HIP, voir même OpenCL sont des langages et librairies spécifiques pour permettre du calculs distribué sur carte graphique, là où Vulkan est une librairie graphique. Bas niveau certes, mais a priori c'est tout de même plus difficile de faire du calcul distribué avec Vulkan que via un langage de programmation fait pour ça…

Après, cela fait bien longtemps que je ne code plus sur carte graphique (Vulkan n'existait pas encore) et je ne connais plus les capacités actuelles…

En tout cas, je te rejoins sur le fait que Vulkan pourrait les unifier tous… bon Cuda est tout de même omniprésent dans le monde de l'IA…

Répondre
[^] # Re: T'as testé une conf hybride CPU/GPU

Posté par Andréas Livet le 07 juillet 2026 à 10:57. En réponse au journal Auto-héberger ses IA : Matériel et optimisation de l'inférence. Évalué à 3 (+1/-0).

ses experts de 10b doivent être plus autonomes que les 3b dont j'ai l'habitude. Donc en solliciter plus que 4 à la fois n'arrive peut-être pas si souvent.

J'avais pas compris le fonctionnement des MoE comme ça. Pour moi, quand on LLM MoE indique 10B pour les experts c'est que, dans tous les cas, il n'y a que 10B de paramètres qui s'active, peu importe la complexité de la tâche.
Et 10B c'est pas forcément la taille de l'expert, parfois les experts sont bien plus petits et plusieurs s'active en même temps, juste y en a toujours autant qui s'activent en même temps, mais je me trompe peut-être.

Sur les benchmark, y a un gars qui fait du bon boulot je trouve : https://github.com/kyuz0
Il crée des sites spécifiques pour chaque carte ou config qu'il teste avec des résultats qu'il s'efforce d'être le plus normé possible.
Exemple sur les strix halo : https://strix-halo-toolboxes.com

Répondre
[^] # Re: PUE ?

Posté par Andréas Livet le 06 juillet 2026 à 16:01. En réponse au journal Auto-héberger ses IA : Matériel et optimisation de l'inférence. Évalué à 3 (+1/-0).

Je me suis fait la même réflexion, c'est là où on se rend compte que la matérialité de toutes ces installations "clouds". Quand on veut les rapatrier chez nous, on se rend compte à quel point ça consomme et à quel point ça chauffe !

Je trouve justement l'exercice intéressant, car comme toute démarche d' "autonomie", elle permet de conscientiser les usages et souvent de s'auto limiter.

Quand j'utilise claude code, c'est comme quand je branche un appareil électrique sur une prise de ma maison, je ne me rends pas compte de toutes les externalités négatives (centrales électriques, data center etc.).

Répondre
# T'as testé une conf hybride CPU/GPU

Posté par Andréas Livet le 06 juillet 2026 à 15:50. En réponse au journal Auto-héberger ses IA : Matériel et optimisation de l'inférence. Évalué à 3 (+1/-0).

Merci encore pour ce super journal, je ne l'ai pas encore lu dans le détail mais déjà bien survolé.
Comme pour le dernier, je partage tes galères et errements et je découvre aussi pas mal de choses (notamment le split "tensor") donc très cool, merci !

L'autre jour, j'ai vu un personne "annoncer" (comme tu le dis bien dans ton intro) qu'elle atteignait 30 t/s sur un laptop à 1500€ (donc j'imagine avec une carte graphique avec peut-être 10/12Go max si acheté à l'époque pré rampocalypse) avec le Qwen 3.5 122B A10B en 4bits, en mode hybride donc en chargeant que les poids actifs sur le GPU, le reste étant en RAM.

J'ai été très étonné de cette affirmation, croyant que les perfs s'effondrait dans ce cas.

Si c'est vraiment utilisable de faire de l'hybride CPU/GPU, ça ouvre la voie à l'utilisation de modèles plus gros comme celui mentionné ci-dessus, voir même DeepSeek v4-flash qui serait une sorte de "graal" pour l'usage agentique local : il est pensé pour être quantifié et gère de très long contexte sans que les perfs s'effondrent.

Car, honnêtement, j'ai abandonné l'usage des "petits" gemma 4 et qwen que tu cites, car pour faire du code et manipuler des fichiers, c'est très très limite. Même avec des instructions claire, ils me faisaient n'importe quoi. Mais bon, j'ai testé les versions MoE, les versions denses étaient trop lentes sur ma config.

Pour deepseek v4, il y a un projet a part qui a l'air vraiment top : https://github.com/antirez/ds4, llama.cpp étant visiblement trop "générique" pour pouvoir prendre en compte efficacement les optis implémentées dans DeepSeek v4 (notamment sur la compression du contexte).

Donc si t'as testé ça aussi, je suis carrément preneur !

Répondre
[^] # Re: vulkan me semblait plus rapide que rocm

Posté par Andréas Livet le 06 juillet 2026 à 15:37. En réponse au journal Auto-héberger ses IA : Matériel et optimisation de l'inférence. Évalué à 4 (+2/-0).

Je confirme que sur mon AMD Ryzen AI 9 HX 370, le mode vulkan est légèrement plus rapide que ROCm/HIP et sans doute un peu moins efficace d'un point de vue énergétique.

Répondre
[^] # Re: N'importe quoi !

Posté par Andréas Livet le 04 juin 2026 à 10:00. En réponse au lien Resistance is futile : une IA décode le codex Borg. Évalué à 3 (+1/-0).

Je me suis fait la même remarque en lisant le paragraphe !

Cet article ne veut donc rien dire non ? En quoi c'est une nouvelle ?

Répondre
[^] # Re: Pour être plus précis ...

Posté par Andréas Livet le 04 juin 2026 à 09:57. En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 2 (+0/-0).

Car déjà Claude code c'est pas libre, ensuite parce que ça fait un peu le café mais sans trop savoir comment ça fonctionne. Puis c'est très lié à Antropic et à leurs modèles.
Et je suis certains que d'ici très peu de temps, les prix vont faire au moins X5, ça me paraît inexorable vu le coût des infrastructure. Donc, je ne veux pas être lié à tel ou tel fournisseur, donc avoir un outil agentique agnostique (pas mal comme enchainement) c'est une nécessité selon moi.

Après pourquoi plus pi que opencode, honnêtement j'en sais rien, sans doute parce que j'ai aimé l'approche du créateur de pi, faire quelque chose de minimaliste qui peut évoluer au gré des besoins et qui peut se modifier lui même.

Mais bon, pour l'instant j'ai pas fait des trucs de fou, juste des skills que j'ai peaufiné pour mes cas d'usage, mais pas grand chose d'autre.

Comme dit le gars de la conf "A love letter to pi", on est encore au tout début de ces outils, personne ne sait vraiment comment les utiliser. Il commence à y avoir des "bonnes" pratiques qui émergent, mais ça se trouve dans 2 jours t'as un gars qui va arriver avec un truc totalement révolutionnaire (je ne parle pas des modèles qui s'améliorent mais bien des façons de travailler avec). Bon j'ai l'habitude, j'ai fait beaucoup de JS pendant un moment, donc devoir suivre la hype, c'est seconde nature :D !

Répondre
[^] # Re: Je suis un mauvais programmeur

Posté par Andréas Livet le 27 mai 2026 à 13:38. En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 2 (+0/-0).

Quelque part, c'est comme les tableurs. Chacun peut faire ses formules dans son coin, et on voit ce que ça donne.

L'analogie avec les tableurs est intéressante, juste là si c'est bien fait (au sens ingénierie logiciel) les outils créés seront assez maintenables, mais très dispersés et fragmentés en effet !

Peut-être qu'une autre analogie c'est le paysage Android sur les différents téléphones.

Répondre
[^] # Re: La demande

Posté par Andréas Livet le 27 mai 2026 à 13:30. En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 3 (+1/-0).

Merci pour le lien, c'est très intéressant d'un point de vue pédagogique, c'est marquant ! Même si on sait qu'aujourd'hui ce n'est pas rentable, là c'est très visuel :).

Répondre
[^] # Re: Pour être plus précis ...

Posté par Andréas Livet le 27 mai 2026 à 13:29. En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 5 (+3/-0).

Ça m'étonnerait que les syndicats aient réellement leur mot à dire dans la définition d'une politique industrielle.

Je disais ça car dans le dernier podcast de Ed Zitron, y a une table ronde avec Cory Doctrow et il dit que les cols blancs de la tech auraient du se syndiquer depuis longtemps et qu'on a été chouchouté par les boîtes alors on voyait pas le mal et que maintenant on va être traité comme les autres, car on est devenu remplaçable.

https://omny.fm/shows/better-offline/czm-rewind-cory-doctorow-and-ed-zitron-on-enshittification-and-the-rot-economy/embed?media=Audio

J'ai l'impression que tu souhaites défendre une sorte de fragmentation de l'industrie du logiciel, avec d'un côté des boîtes qui font du développement "industriel", pas forcément low-cost, mais avec des coûts restreints, des contraintes de temps, etc., utilisement massivement l'IA, et d'un autre côté une activité plus "romantique" avec des développeurs défendant une forme d'artisanat. Pourquoi pas, ça existe dans plein de domaines, donc l'idée se défend.

Oui on va sans doute aller vers ça, et il y a déjà des devs clairement dans cette démarche (par exemple Drew Devault) mais à part peut-être dans des domaines très sensibles où l'on ne voudra pas dépendre de ce genre d'outil, ou peut-être des domaines où il y a des règlementations particulières, je dis n'importe quoi mais peut-être l'aviation ?

Sinon, à part pour la gloire ou pour du logiciel libre fait sur son temps libre, je ne sais pas si ça va prendre.

Le seul frein que je verrai à l'adoption massive de ces outils c'est leur coût. Je pense qu'on va vite arriver à des abonnements ou des coûts facilement 5X plus cher qu'aujourd'hui. Donc, je vois bien le truc venir avec des toutes petites équipes de une ou deux personnes qui ont des méga abonnements LLM et autres qui font le taf de 5 ? Peut-être 10 personnes ?

J'imagine bien par exemple en 2027 ou 2028 que plus aucun code sensible au niveau de la sécurité ne puisse éviter le passage LLM avant toute mise en prod.

Oui c'est fort probable, vu la capacité qu'on ces outils à trouver des failles zero day !

Répondre
[^] # Re: Pour être plus précis ...

Posté par Andréas Livet le 27 mai 2026 à 12:05. En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 5 (+3/-0).

Oui tu as raison, j'aurai du préciser ce que j'entends par "qualité", surtout que mes tests portent sur des projets pas du tout critiques.
Donc dans mon cas, quand je parlais de qualité, c'est plus en terme de documentation, nommage, structuration du code, nommage et organisation des commits etc.
Ce qui n'est qu'un aspect de la qualité, mais c'est souvent la critique du vibecoding qui est qu'on ne peut pas se retrouver dans le code. La ce n'est pas mon vécu, le code est très lisible, l'historique claire. Y clairement des choses que je n'aurai pas fait comme ça et y a moyen de faire faire la refacto ou de la faire soit même sans trop de problème.

Après pour des domaines plus critiques, de ce que j'ai compris c'est tout de même faisable d'avoir une qualité en terme de sécurité, de respect des bonnes pratiques etc.
Bien sûr, dans ces cas là vaut mieux avoir une bonne maitrise du domaine pour être sûr qu'il n'y a pas trop d'erreur.

Le piège qui arrive forcément c'est qu'au bout d'un moment t'arrête de faire des revues systématiques et tu te mets à faire confiance. Je pense clairement que c'est ce qui est arrivé chez Amazon ou Microsoft et ils s'en sont mordu les doigts.

On en est qu'au balbutiements pour ce qui est des bonnes pratiques d'utilisation de ces outils et clairement y a des grosses marges d'amélioration, je voulais juste souligner que ça avait déjà atteint un stade où c'est impressionnant et utilisable par des devs pro. Pas juste pour vibecoder un truc qu'on ne maintiendra pas.

Répondre
[^] # Re: Pour être plus précis ...

Posté par Andréas Livet le 26 mai 2026 à 16:49. En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 5 (+3/-0). Dernière modification le 26 mai 2026 à 16:49.

Oui c'est sûr, questionner le besoin est une démarche très importante qu'on oublie bien souvent de faire dans nos sociétés.

Tu parles aussi dans ton autre commentaire de cette envie de faire moins de code, de pouvoir lire le code, y réfléchir etc. Moi aussi, cela fait partie du plaisir que j'ai dans le code : trouver la bonne abstraction, la bonne stratégie de test, le bon nommage etc. Là ce n'est clairement plus du tout le même métier !

En te débrouillant bien (comme je l'ai décrit plus haut) tu peux arriver à avoir du code auditable, mais clairement tu es beaucoup moins en maîtrise.

Le "problème" c'est qu'une entreprise ou un client va voir le gain immédiat et s'en fou que la nature du travail de dev change, c'est ce qu'on appelle la prolétarisation. On pensait que c'était réservé qu'aux ouvriers, ça nous arrive à nous maintenant… si j'étais en mode Cory Doctrow, je dirai qu'il faut se syndiquer et refuser tout ça :)

Répondre
[^] # Re: Pour être plus précis ...

Posté par Andréas Livet le 26 mai 2026 à 11:17. En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 3 (+2/-1).

J'ai bien aimé les récentes conf "AI Engineer" notamment celle du créateur de pi : https://youtu.be/RjfbvDXpFls

Y a aussi celle-la qui m'a donné plein de bonnes bases : https://youtu.be/fdbXNWkpPMY

Et aussi surtout cette conf : https://youtu.be/-QFHIoCo-Ko Ce mec, Matt Pocock est vraiment très pertinent sur le sujet.

Répondre
[^] # Re: Pour être plus précis ...

Posté par Andréas Livet le 26 mai 2026 à 10:09. En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 5 (+6/-3).

Encore une fois, je ne cherche pas à faire la promotion de ces outils, leur usage me questionne énormément. Juste c'est un constat, en utilisant des outils agentiques de ce type, je pense être réellement 10X plus productifs, voir sans doute plus.

En fait, ces outils codent (et utilisent des outils en ligne de commande) a une vitesse folle, ça on l'avait compris, mais maintenant qu'on peut les "commander", leur donner accès à un dossier, certaines commandes etc. Y a des processus de travail qui émergent où tu spécifies ce que tu veux faire en passant une sorte d'interrogatoire avec le LLM, il va te poser plein de questions, te faire des propositions, tu peux aussi lui faire des remarques lui poser des questions etc. Quand tu sens qu'il y a un terrain d'entente, que le périmètre est bien compris, bah c'est presque gagné.

Ensuite, y a plus qu'à lui faire résumer tout ça, découper en tâches pas trop grosses et qui font sens fonctionnellement et tu déroules tout le tapis : analyse => code => revue de style (est-ce qu'il y a pas des répétitions dans le code, est-ce le code ajouté n'induit pas une refonte du code alentour, est-ce que les variables sont bien nommées, est-ce que les commentaires font sens etc. => autre type de revue en fonction du domaine et du framework (si c'est du web, un truc qui vérifie les failles courantes, est-ce que tu utilises bien les dernières manières de faire pour ton framework etc.) => documentation (mise à jour de la doc API, du README etc.) => enfin commit.

A chacune de ces étapes, tu peux rentrer dans la boucle, donner ton avis et faire reboucler l'outil si besoin.

Honnêtement, avant qu'un ami me parle de cette manière de travailler, je ne pensais pas que ces outils en était déjà à ce stade de maturité.

L'énorme souci qu'à cette approche, c'est que ça repose sur une infrastructure démesurée ! Et engendre des couts totalement invraisemblables. Déjà, ça coute cher en API ou abonnement (tout dépend ce qu'on a pris), je dirai pour faire tourner ça toute la journée de code, ça peut aller jusqu'à 10€/jour sur une API pas trop chère genre deepseek-v4-flash et pour un abonnement, si tu veux pour l'utiliser intensivement c'est minimum du 100€/mois, voir 200€, et encore je pense que tu te sens limité à un moment, par contre c'est sûr des LLMs plus puissants.

Mais là, je pense qu'on est encore dans une phase où on ne paye pas le cout réel de ces infrastructures. Puis il y a le cout environnementale, sociale, sociétale de toute cette technologie.

Est-ce que cette débauche d'énergie, de ressources, est utile ? Est-ce que j'avais réellement besoin de créer des applications plus rapidement ? Clairement non ! Mais bon, est-ce qu'on avait besoin de créer des énormes infra cloud pour pouvoir uploader et visionner des milliards de vidéos en ligne ? Non plus, et pourtant ça se fait depuis 20 ans et y a pas grand monde qui se plaint de ça.
Je ne veux pas dire par là que comme on ne s'est pas plaint de l'émergence de ces énormes infrastructures avant (enfin bien sûr que certains en ont parlé, mais disons qu'aujourd'hui avec l'IA cette problématique est plus "visible"), c'est OK pour qu'on continue avec l'IA. Je veux plutôt dire que l'IA est dans une sorte de continuité avec le projet des GAFAM qui se met en place depuis une à deux décennies.

Répondre
[^] # Re: Pour être plus précis ...

Posté par Andréas Livet le 25 mai 2026 à 23:23. En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 7 (+11/-6).

Je fais le même constat, ça fait quelques semaines que je m'essaie à la programmation "agentique" via claude code et maintenant "pi" et d'un point de vue productivité ET qualité (j'insiste la dessus), je suis 10X plus productif, voir peut-être plus, surtout dans des domaines que je maîtrise mal.

Franchement, j'hallucine à quel point ces systèmes sont devenus performants, j'ai suivi ça de près, mais je ne pensais pas que ça irait aussi vite honnêtement.
Et les personnes qui disent que ça ne produit pas du code de qualité, qu'on ne s'y retrouve pas après ou autre parlent uniquement de vibecoding. La avec un pipeline bien pensé, une bonne spécification déterminé à l'avance, des règles de validation, de documentation etc. Je produis du code de bien meilleure qualité que si je codais sans IA.
Parfois, il y a des ratés (ce qui arrive aussi en tant qu'humain, genre des fichiers de debug rajouté dans le commit, des path absolus au lieu de relatif dans un fichier de conf etc.) mais c'est assez minime et dans l'ensemble c'est de très bonne qualité. Puis, on peut très facilement améliorer l'autonomie de ces systèmes en fonction du contexte spécifique à un projet en modifiant les prompts des skills.

Je ne cherche pas du tout à faire la pub de ces systèmes, franchement je trouve que la quantité d'énergie et de matériel nécessaire à les faire tourner me donne le vertige, les investissement dans ce domaines sont à un niveau quasiment "absurde", l'impact environnemental et sociétal est énorme etc. juste ça a plié le game ! Notre travail en temps que développeurs ne sera plus le même, si ces systèmes peuvent perdurer sur le long terme !
Comme disait un ami : "je n'ai pas envie d'utiliser ces système, mais si je veux continuer à bosser dans ce domaine, je suis obligé et ça ne me fait pas plaisir". Je partage malheureusement son avis… Et oui, X10 de productivité, ne va pas correspondre à X10 de revenus pour les entreprises qui utilisent l'IA. On va plutôt vers du X10 de licenciement je pense pour garder la même productivité avec beaucoup moins de personnes.

Après, cet énorme gain en productivité ouvre la voie à des choses qu'on aurait pas oser faire avant, des sides projects un peu fous, des projets trop épiques pour être fait par une personne, et ces projets peuvent eux être sous licence libre. Je pense qu'on va voir une augmentation drastique du nombre de projets libres et dans ceux là, peut-être des pépites ? Est-ce que ça vaut toutes les négativités que ça va/a engendré ? Pas sûr…

Répondre
[^] # Re: Complement d’information

Posté par Andréas Livet le 21 mai 2026 à 09:28. En réponse au journal Auto-héberger ses IA. Évalué à 2 (+1/-1).

Sur du Strix Halo, Oss20b est annoncé à 40t/s, j'ai vraiment envie d'essayer haha parce que pour moi cette vitesse est acceptable. Et les gb en plus sont du luxe, mais ca permet peut-etre de faire tourner en q8 et d'avoir encore de la RAM, attractif sur le papier.

C'est carrément acceptable, sur ma machine, j'ai une bonne vitesse aussi sur du gemma4 26b, vu que c'est des mélanges d'experts (comme oss-20B il me semble) c'est assez rapide (chez moi on est plus autour des 20t/s si je me rappelle bien). Mais bon pour faire du code en mode agentic c'est très limite en terme de qualité.
Le LLM se perd rapidement, ne suit pas des prompts simple genre "met à jour la documentation avec ce qu'on s'est dit", c'est juste un résumé à faire et sauvegarder un fichier, bah une fois sur deux il va se perdre en route, même avec un contexte pas trop gros.

Par contre, c'est pas mal avec OpenWebUi, pour faire du RAG et du chatbot "classique" (poser des questions, creuser des sujets, bien sûr c'est pas très "fiable" mais sur des explications de choses très connues, ça fonctionne bien je pense), de l'analyse d'image etc.

Répondre
[^] # Re: Merci

Posté par Andréas Livet le 19 mai 2026 à 21:57. En réponse au journal Auto-héberger ses IA. Évalué à 3 (+1/-0). Dernière modification le 19 mai 2026 à 21:57.

Oui c'est encore tout frais ce genre de trucs. Par exemple pour mon NPU il faut Linux 7.0 pour qu'il soit intégré nativement, mais y a un module dkms qui permet de le faire tourner sur des versions plus ancienne, mais attention, pas sur des kernel ubuntu d'origine… il faut donc un kernel OEM etc. Bref, comme je disais dans un autre commentaire, on est vraiment loin du "out of the box"…

J'ai pas encore regardé autour de wisper sur NPU mais j'imagine qu'il y a des projets de ce genre, ça peut être super cool, si jamais tu trouves quelque chose je suis preneur ;).

Répondre
[^] # Re: Plusieurs cartes en SLI ?

Posté par Andréas Livet le 19 mai 2026 à 21:52. En réponse au journal Auto-héberger ses IA. Évalué à 4 (+2/-0).

Merci pour les précisions :)

Répondre
# Plusieurs cartes en SLI ?

Posté par Andréas Livet le 19 mai 2026 à 13:19. En réponse au journal Auto-héberger ses IA. Évalué à 3 (+1/-0).

Merci pour ce journal, franchement je me tâtais à faire un retour de ce genre en journal et en l'espace de 2 jours on a eu 2 journaux sur ce sujet donc pas besoin d'en faire un troisième.

Je me questionne sur les 3 cartes graphiques que tu as sur ta machine. J'imagine que c'est du SLI ? De ce que j'ai compris le gain de perf est pas si important que ça, certes on a plus de VRAM, mais la machine n'arrive pas à faire les calculs plus rapidement, voir peut-être l'inverse non ?

De plus, ça fait 3 cartes graphiques à alimenter donc ça doit consommer un max non ?

En tout cas c'est clairement pas évident d'auto héberger des "gros" LLM aujourd'hui. Peut-être que ça ne le sera jamais ? Vu les perspectives de production de RAM etc sur les années à venir, on risque d'attendre un peu pour avoir des machines avec plein de VRAM ou de mémoire partagée rapide pour pas cher…

J'ai parfois l'impression de perdre mon temps (et mon argent) avec toutes ces expérimentations…

Répondre
[^] # Re: Complement d’information

Posté par Andréas Livet le 19 mai 2026 à 13:03. En réponse au journal Auto-héberger ses IA. Évalué à 3 (+1/-0).

Ma question est sur le confort d’utilisation. Le Mac mini n’a que 120gb de bande passante, mais le modèle tourne a une vitesse acceptable. Je me demande si vous avez une idée sur l’utilisation d’une APU comme Halo Strix avec environ 200gb de bande passante et l’avantage d’avoir 128gb de ram à un prix abordable? Moins rapide, plus cher à upgrader, mais plus simple, plus confortable et pas un gros four :)

J'ai pris un AMD Ryzen AI 9 HX 370 avec 64GB de ram justement pour ça (il a la même bande passante de que les Strix Halo il me semble) et franchement je suis assez déçu.

Avec 64Gb tu peux charger des modèles potentiellement plus gros, mais il vont tourner trop lentement…

J'ai fait des tests avec Qwen 3.6 27b dense et Gemma 4 31b dense et même avec le mtp (truc qui vient tout juste d'être mis en place chez llamma.cpp, quand je dis tout juste c'est hier) qui boost les perfs entre 1,4X et 2,5X, bah je suis genre à 6 tokens/s avec un contexte vierge, donc ça doit vite retomber à du 4 t/s, voir moins avec un contexte important. J'aimerai me tromper, mais j'ai fait pas mal d'essais, tester plusieurs config (Vulkan ou HIP), je me suis cassé les dents avec les problèmes de drivers ROCm, les noyaux linux, la config grub, bios etc. J'ai vraiment passé du temps pour m'assurer que tout était bon, car l'expérience actuelle n'est pas du tout "out of the box" sur une machine AMD Ryzen sous Linux.

Sur du Strix Halo t'es sans doute un peu plus rapide car le processeur est plus puissant, donc t'arrives peut-être à du 10 tokens/s, 15 grand max je dirai. Mais ça reste assez limite je trouve.

Les nouveaux modèles comme DeepSeek v4-flash qui sont un mélange d'expert de 13b sont peut-être l'avenir pour ce genre de config. Par contre, ils sont encore trop gros (154B pour v4-flash), mais ils ont plein d'optimisation sur la taille du contexte et tout, donc avec un Strix Halo et 128Gb de RAM, j'imagine que ça commence à être utilisable, pas lu de retours détaillés la dessus.
En tout cas, c'est une piste, mais ça fait quand même des machines à minimum 3000€ aujourd'hui et non upgradable (tous les modèles que je connais ont de la mémoire soudée, y a peut-être moyen d'acheter le processeur à part - jamais vu - et mettre des barettes en LPCAMM2 dessus).
Si ça se confirme qu'un modèle comme deepseek v4-flash est utilisable sur ce genre de config avec un large contexte, alors ça rendrait l'usage d'un LLM local très probable pour faire du code. Soit en "vibe codant", soit en ayant une approche plus structurée qu'on appelle "agentic engineering", j'ai de très très bon retours de collègues sur ce genre d'approche. Bon par contre, ça change de manière drastique la façon de travailler… Les retours sont que c'est plus le même boulot et que le plaisir n'y est plus…

Répondre
[^] # Re: GPU AMD

Posté par Andréas Livet le 19 mai 2026 à 11:44. En réponse au journal Auto-héberger ses IA. Évalué à 5 (+3/-0).

J'ai eu des grosses galère aussi sur mon proc AMD pour le faire tourner sur le GPU, il se trouve que j'avais mal installé les drivers ROCm, pour les Ryzen, il ne faut pas le mode dkms, y' a 2 méthodes d'installation dans la doc AMD, j'avais lu la mauvaise… je peux te dire que j'en ai passé du temps pour comprendre le prob…

Répondre
[^] # Re: Mode RPC de llamacpp

Posté par Andréas Livet le 19 mai 2026 à 11:42. En réponse au journal Auto-héberger ses IA. Évalué à 4 (+2/-0).

Perso j'ai fait des tests avec 2 mac mini m4 16Gb branché sur le thunderbolt 4 en pensant que ça aiderait et les perfs sont pas top.
Il faut une jonction thunderbolt 5 pour que ça fonctionne bien et c'est que sur les m4 pro…

J'avais un peu de foi dans ces techniques, mais je crois que c'est plus de la bidouille qu'autre chose, ou alors c'est bien utile pour de l'inférence à plusieurs, mais pour un seul utilisateur je pense que c'est limité.

Répondre
[^] # Re: Merci

Posté par Andréas Livet le 19 mai 2026 à 11:39. En réponse au journal Auto-héberger ses IA. Évalué à 6 (+4/-0).

J'ai expérimenté hier avec mon NPU de mon AMD AI 9 HX 370.
Ce sont des puces assez intéressantes tout de même. Tu peux arriver à faire tourner des petits LLMs avec genre du 3b/4b peut-être un peu plus mais après on atteint la limite de la bête. La sur du gemma 4 e2b (de mémoire) j'étais à 15 token/s la où je serai à 30 ou plus avec le GPU (présent sur le même SoC), mais le tout pour une fraction de l'énergie utilisé (au final c'est peut-être 4 à 5 fois plus efficient).

Donc ça peut servir à avoir un petit LLM en tâche de fond pour des trucs simples, mais je pense qu'à la base c'est plus fait pour pouvoir lancer des algos de retouche photo, peut-être OCR, des trucs comme Wisper pour faire du speech-to-text en temps réel (faudrait que j'essaie d'ailleurs), du décodage de format utilisant des deep learning des trucs comme ça.

Pour AMD, l'outil pour lancer des LLM sur le NPU s'appelle FastFlowLM : https://github.com/FastFlowLM/FastFlowLM
Voici la liste des modèles qu'il peut gérer (c'est une quantification particulière) : https://fastflowlm.com/docs/models/
Et à ce que j'ai compris, tout ce petit monde est codé avec le compilateur IRON : https://github.com/amd/IRON/ qui permet d'utiliser au mieux le NPU sans toutefois coder en assembleur (mais j'ai pas du tout mis le nez dedans pour l'instant).

Répondre
# C'est ce que je dis depuis le début

Posté par Andréas Livet le 14 avril 2026 à 10:56. En réponse au lien Les LLM sont un retour aux mainframes. Évalué à 3.

Et oui, c'est ça qui m'étonne le plus avec l'IA Générative c'est que cela nécessite tellement de puissance de calcul qu'on est retourné à l'air des mainframes.
Alors peut-être que la miniaturisation (j'entends par la le fait de pouvoir éxecuter un LLM de "haut niveau" sur son téléphone ou ordinateur personnel) va arriver plus vite que ce qu'on a vu avec les mainframes de l'époque, mais c'est pas sûr !