Quelque part, c'est comme les tableurs. Chacun peut faire ses formules dans son coin, et on voit ce que ça donne.
L'analogie avec les tableurs est intéressante, juste là si c'est bien fait (au sens ingénierie logiciel) les outils créés seront assez maintenables, mais très dispersés et fragmentés en effet !
Peut-être qu'une autre analogie c'est le paysage Android sur les différents téléphones.
Merci pour le lien, c'est très intéressant d'un point de vue pédagogique, c'est marquant ! Même si on sait qu'aujourd'hui ce n'est pas rentable, là c'est très visuel :).
Ça m'étonnerait que les syndicats aient réellement leur mot à dire dans la définition d'une politique industrielle.
Je disais ça car dans le dernier podcast de Ed Zitron, y a une table ronde avec Cory Doctrow et il dit que les cols blancs de la tech auraient du se syndiquer depuis longtemps et qu'on a été chouchouté par les boîtes alors on voyait pas le mal et que maintenant on va être traité comme les autres, car on est devenu remplaçable.
J'ai l'impression que tu souhaites défendre une sorte de fragmentation de l'industrie du logiciel, avec d'un côté des boîtes qui font du développement "industriel", pas forcément low-cost, mais avec des coûts restreints, des contraintes de temps, etc., utilisement massivement l'IA, et d'un autre côté une activité plus "romantique" avec des développeurs défendant une forme d'artisanat. Pourquoi pas, ça existe dans plein de domaines, donc l'idée se défend.
Oui on va sans doute aller vers ça, et il y a déjà des devs clairement dans cette démarche (par exemple Drew Devault) mais à part peut-être dans des domaines très sensibles où l'on ne voudra pas dépendre de ce genre d'outil, ou peut-être des domaines où il y a des règlementations particulières, je dis n'importe quoi mais peut-être l'aviation ?
Sinon, à part pour la gloire ou pour du logiciel libre fait sur son temps libre, je ne sais pas si ça va prendre.
Le seul frein que je verrai à l'adoption massive de ces outils c'est leur coût. Je pense qu'on va vite arriver à des abonnements ou des coûts facilement 5X plus cher qu'aujourd'hui. Donc, je vois bien le truc venir avec des toutes petites équipes de une ou deux personnes qui ont des méga abonnements LLM et autres qui font le taf de 5 ? Peut-être 10 personnes ?
J'imagine bien par exemple en 2027 ou 2028 que plus aucun code sensible au niveau de la sécurité ne puisse éviter le passage LLM avant toute mise en prod.
Oui c'est fort probable, vu la capacité qu'on ces outils à trouver des failles zero day !
Oui tu as raison, j'aurai du préciser ce que j'entends par "qualité", surtout que mes tests portent sur des projets pas du tout critiques.
Donc dans mon cas, quand je parlais de qualité, c'est plus en terme de documentation, nommage, structuration du code, nommage et organisation des commits etc.
Ce qui n'est qu'un aspect de la qualité, mais c'est souvent la critique du vibecoding qui est qu'on ne peut pas se retrouver dans le code. La ce n'est pas mon vécu, le code est très lisible, l'historique claire. Y clairement des choses que je n'aurai pas fait comme ça et y a moyen de faire faire la refacto ou de la faire soit même sans trop de problème.
Après pour des domaines plus critiques, de ce que j'ai compris c'est tout de même faisable d'avoir une qualité en terme de sécurité, de respect des bonnes pratiques etc.
Bien sûr, dans ces cas là vaut mieux avoir une bonne maitrise du domaine pour être sûr qu'il n'y a pas trop d'erreur.
Le piège qui arrive forcément c'est qu'au bout d'un moment t'arrête de faire des revues systématiques et tu te mets à faire confiance. Je pense clairement que c'est ce qui est arrivé chez Amazon ou Microsoft et ils s'en sont mordu les doigts.
On en est qu'au balbutiements pour ce qui est des bonnes pratiques d'utilisation de ces outils et clairement y a des grosses marges d'amélioration, je voulais juste souligner que ça avait déjà atteint un stade où c'est impressionnant et utilisable par des devs pro. Pas juste pour vibecoder un truc qu'on ne maintiendra pas.
Oui c'est sûr, questionner le besoin est une démarche très importante qu'on oublie bien souvent de faire dans nos sociétés.
Tu parles aussi dans ton autre commentaire de cette envie de faire moins de code, de pouvoir lire le code, y réfléchir etc. Moi aussi, cela fait partie du plaisir que j'ai dans le code : trouver la bonne abstraction, la bonne stratégie de test, le bon nommage etc. Là ce n'est clairement plus du tout le même métier !
En te débrouillant bien (comme je l'ai décrit plus haut) tu peux arriver à avoir du code auditable, mais clairement tu es beaucoup moins en maîtrise.
Le "problème" c'est qu'une entreprise ou un client va voir le gain immédiat et s'en fou que la nature du travail de dev change, c'est ce qu'on appelle la prolétarisation. On pensait que c'était réservé qu'aux ouvriers, ça nous arrive à nous maintenant… si j'étais en mode Cory Doctrow, je dirai qu'il faut se syndiquer et refuser tout ça :)
Encore une fois, je ne cherche pas à faire la promotion de ces outils, leur usage me questionne énormément. Juste c'est un constat, en utilisant des outils agentiques de ce type, je pense être réellement 10X plus productifs, voir sans doute plus.
En fait, ces outils codent (et utilisent des outils en ligne de commande) a une vitesse folle, ça on l'avait compris, mais maintenant qu'on peut les "commander", leur donner accès à un dossier, certaines commandes etc. Y a des processus de travail qui émergent où tu spécifies ce que tu veux faire en passant une sorte d'interrogatoire avec le LLM, il va te poser plein de questions, te faire des propositions, tu peux aussi lui faire des remarques lui poser des questions etc. Quand tu sens qu'il y a un terrain d'entente, que le périmètre est bien compris, bah c'est presque gagné.
Ensuite, y a plus qu'à lui faire résumer tout ça, découper en tâches pas trop grosses et qui font sens fonctionnellement et tu déroules tout le tapis : analyse => code => revue de style (est-ce qu'il y a pas des répétitions dans le code, est-ce le code ajouté n'induit pas une refonte du code alentour, est-ce que les variables sont bien nommées, est-ce que les commentaires font sens etc. => autre type de revue en fonction du domaine et du framework (si c'est du web, un truc qui vérifie les failles courantes, est-ce que tu utilises bien les dernières manières de faire pour ton framework etc.) => documentation (mise à jour de la doc API, du README etc.) => enfin commit.
A chacune de ces étapes, tu peux rentrer dans la boucle, donner ton avis et faire reboucler l'outil si besoin.
Honnêtement, avant qu'un ami me parle de cette manière de travailler, je ne pensais pas que ces outils en était déjà à ce stade de maturité.
L'énorme souci qu'à cette approche, c'est que ça repose sur une infrastructure démesurée ! Et engendre des couts totalement invraisemblables. Déjà, ça coute cher en API ou abonnement (tout dépend ce qu'on a pris), je dirai pour faire tourner ça toute la journée de code, ça peut aller jusqu'à 10€/jour sur une API pas trop chère genre deepseek-v4-flash et pour un abonnement, si tu veux pour l'utiliser intensivement c'est minimum du 100€/mois, voir 200€, et encore je pense que tu te sens limité à un moment, par contre c'est sûr des LLMs plus puissants.
Mais là, je pense qu'on est encore dans une phase où on ne paye pas le cout réel de ces infrastructures. Puis il y a le cout environnementale, sociale, sociétale de toute cette technologie.
Est-ce que cette débauche d'énergie, de ressources, est utile ? Est-ce que j'avais réellement besoin de créer des applications plus rapidement ? Clairement non ! Mais bon, est-ce qu'on avait besoin de créer des énormes infra cloud pour pouvoir uploader et visionner des milliards de vidéos en ligne ? Non plus, et pourtant ça se fait depuis 20 ans et y a pas grand monde qui se plaint de ça.
Je ne veux pas dire par là que comme on ne s'est pas plaint de l'émergence de ces énormes infrastructures avant (enfin bien sûr que certains en ont parlé, mais disons qu'aujourd'hui avec l'IA cette problématique est plus "visible"), c'est OK pour qu'on continue avec l'IA. Je veux plutôt dire que l'IA est dans une sorte de continuité avec le projet des GAFAM qui se met en place depuis une à deux décennies.
Je fais le même constat, ça fait quelques semaines que je m'essaie à la programmation "agentique" via claude code et maintenant "pi" et d'un point de vue productivité ET qualité (j'insiste la dessus), je suis 10X plus productif, voir peut-être plus, surtout dans des domaines que je maîtrise mal.
Franchement, j'hallucine à quel point ces systèmes sont devenus performants, j'ai suivi ça de près, mais je ne pensais pas que ça irait aussi vite honnêtement.
Et les personnes qui disent que ça ne produit pas du code de qualité, qu'on ne s'y retrouve pas après ou autre parlent uniquement de vibecoding. La avec un pipeline bien pensé, une bonne spécification déterminé à l'avance, des règles de validation, de documentation etc. Je produis du code de bien meilleure qualité que si je codais sans IA.
Parfois, il y a des ratés (ce qui arrive aussi en tant qu'humain, genre des fichiers de debug rajouté dans le commit, des path absolus au lieu de relatif dans un fichier de conf etc.) mais c'est assez minime et dans l'ensemble c'est de très bonne qualité. Puis, on peut très facilement améliorer l'autonomie de ces systèmes en fonction du contexte spécifique à un projet en modifiant les prompts des skills.
Je ne cherche pas du tout à faire la pub de ces systèmes, franchement je trouve que la quantité d'énergie et de matériel nécessaire à les faire tourner me donne le vertige, les investissement dans ce domaines sont à un niveau quasiment "absurde", l'impact environnemental et sociétal est énorme etc. juste ça a plié le game ! Notre travail en temps que développeurs ne sera plus le même, si ces systèmes peuvent perdurer sur le long terme !
Comme disait un ami : "je n'ai pas envie d'utiliser ces système, mais si je veux continuer à bosser dans ce domaine, je suis obligé et ça ne me fait pas plaisir". Je partage malheureusement son avis… Et oui, X10 de productivité, ne va pas correspondre à X10 de revenus pour les entreprises qui utilisent l'IA. On va plutôt vers du X10 de licenciement je pense pour garder la même productivité avec beaucoup moins de personnes.
Après, cet énorme gain en productivité ouvre la voie à des choses qu'on aurait pas oser faire avant, des sides projects un peu fous, des projets trop épiques pour être fait par une personne, et ces projets peuvent eux être sous licence libre. Je pense qu'on va voir une augmentation drastique du nombre de projets libres et dans ceux là, peut-être des pépites ? Est-ce que ça vaut toutes les négativités que ça va/a engendré ? Pas sûr…
Sur du Strix Halo, Oss20b est annoncé à 40t/s, j'ai vraiment envie d'essayer haha parce que pour moi cette vitesse est acceptable. Et les gb en plus sont du luxe, mais ca permet peut-etre de faire tourner en q8 et d'avoir encore de la RAM, attractif sur le papier.
C'est carrément acceptable, sur ma machine, j'ai une bonne vitesse aussi sur du gemma4 26b, vu que c'est des mélanges d'experts (comme oss-20B il me semble) c'est assez rapide (chez moi on est plus autour des 20t/s si je me rappelle bien). Mais bon pour faire du code en mode agentic c'est très limite en terme de qualité.
Le LLM se perd rapidement, ne suit pas des prompts simple genre "met à jour la documentation avec ce qu'on s'est dit", c'est juste un résumé à faire et sauvegarder un fichier, bah une fois sur deux il va se perdre en route, même avec un contexte pas trop gros.
Par contre, c'est pas mal avec OpenWebUi, pour faire du RAG et du chatbot "classique" (poser des questions, creuser des sujets, bien sûr c'est pas très "fiable" mais sur des explications de choses très connues, ça fonctionne bien je pense), de l'analyse d'image etc.
Posté par Andréas Livet .
En réponse au journal Auto-héberger ses IA.
Évalué à 3 (+1/-0).
Dernière modification le 19 mai 2026 à 21:57.
Oui c'est encore tout frais ce genre de trucs. Par exemple pour mon NPU il faut Linux 7.0 pour qu'il soit intégré nativement, mais y a un module dkms qui permet de le faire tourner sur des versions plus ancienne, mais attention, pas sur des kernel ubuntu d'origine… il faut donc un kernel OEM etc. Bref, comme je disais dans un autre commentaire, on est vraiment loin du "out of the box"…
J'ai pas encore regardé autour de wisper sur NPU mais j'imagine qu'il y a des projets de ce genre, ça peut être super cool, si jamais tu trouves quelque chose je suis preneur ;).
Merci pour ce journal, franchement je me tâtais à faire un retour de ce genre en journal et en l'espace de 2 jours on a eu 2 journaux sur ce sujet donc pas besoin d'en faire un troisième.
Je me questionne sur les 3 cartes graphiques que tu as sur ta machine. J'imagine que c'est du SLI ? De ce que j'ai compris le gain de perf est pas si important que ça, certes on a plus de VRAM, mais la machine n'arrive pas à faire les calculs plus rapidement, voir peut-être l'inverse non ?
De plus, ça fait 3 cartes graphiques à alimenter donc ça doit consommer un max non ?
En tout cas c'est clairement pas évident d'auto héberger des "gros" LLM aujourd'hui. Peut-être que ça ne le sera jamais ? Vu les perspectives de production de RAM etc sur les années à venir, on risque d'attendre un peu pour avoir des machines avec plein de VRAM ou de mémoire partagée rapide pour pas cher…
J'ai parfois l'impression de perdre mon temps (et mon argent) avec toutes ces expérimentations…
Ma question est sur le confort d’utilisation. Le Mac mini n’a que 120gb de bande passante, mais le modèle tourne a une vitesse acceptable. Je me demande si vous avez une idée sur l’utilisation d’une APU comme Halo Strix avec environ 200gb de bande passante et l’avantage d’avoir 128gb de ram à un prix abordable? Moins rapide, plus cher à upgrader, mais plus simple, plus confortable et pas un gros four :)
J'ai pris un AMD Ryzen AI 9 HX 370 avec 64GB de ram justement pour ça (il a la même bande passante de que les Strix Halo il me semble) et franchement je suis assez déçu.
Avec 64Gb tu peux charger des modèles potentiellement plus gros, mais il vont tourner trop lentement…
J'ai fait des tests avec Qwen 3.6 27b dense et Gemma 4 31b dense et même avec le mtp (truc qui vient tout juste d'être mis en place chez llamma.cpp, quand je dis tout juste c'est hier) qui boost les perfs entre 1,4X et 2,5X, bah je suis genre à 6 tokens/s avec un contexte vierge, donc ça doit vite retomber à du 4 t/s, voir moins avec un contexte important. J'aimerai me tromper, mais j'ai fait pas mal d'essais, tester plusieurs config (Vulkan ou HIP), je me suis cassé les dents avec les problèmes de drivers ROCm, les noyaux linux, la config grub, bios etc. J'ai vraiment passé du temps pour m'assurer que tout était bon, car l'expérience actuelle n'est pas du tout "out of the box" sur une machine AMD Ryzen sous Linux.
Sur du Strix Halo t'es sans doute un peu plus rapide car le processeur est plus puissant, donc t'arrives peut-être à du 10 tokens/s, 15 grand max je dirai. Mais ça reste assez limite je trouve.
Les nouveaux modèles comme DeepSeek v4-flash qui sont un mélange d'expert de 13b sont peut-être l'avenir pour ce genre de config. Par contre, ils sont encore trop gros (154B pour v4-flash), mais ils ont plein d'optimisation sur la taille du contexte et tout, donc avec un Strix Halo et 128Gb de RAM, j'imagine que ça commence à être utilisable, pas lu de retours détaillés la dessus.
En tout cas, c'est une piste, mais ça fait quand même des machines à minimum 3000€ aujourd'hui et non upgradable (tous les modèles que je connais ont de la mémoire soudée, y a peut-être moyen d'acheter le processeur à part - jamais vu - et mettre des barettes en LPCAMM2 dessus).
Si ça se confirme qu'un modèle comme deepseek v4-flash est utilisable sur ce genre de config avec un large contexte, alors ça rendrait l'usage d'un LLM local très probable pour faire du code. Soit en "vibe codant", soit en ayant une approche plus structurée qu'on appelle "agentic engineering", j'ai de très très bon retours de collègues sur ce genre d'approche. Bon par contre, ça change de manière drastique la façon de travailler… Les retours sont que c'est plus le même boulot et que le plaisir n'y est plus…
J'ai eu des grosses galère aussi sur mon proc AMD pour le faire tourner sur le GPU, il se trouve que j'avais mal installé les drivers ROCm, pour les Ryzen, il ne faut pas le mode dkms, y' a 2 méthodes d'installation dans la doc AMD, j'avais lu la mauvaise… je peux te dire que j'en ai passé du temps pour comprendre le prob…
Perso j'ai fait des tests avec 2 mac mini m4 16Gb branché sur le thunderbolt 4 en pensant que ça aiderait et les perfs sont pas top.
Il faut une jonction thunderbolt 5 pour que ça fonctionne bien et c'est que sur les m4 pro…
J'avais un peu de foi dans ces techniques, mais je crois que c'est plus de la bidouille qu'autre chose, ou alors c'est bien utile pour de l'inférence à plusieurs, mais pour un seul utilisateur je pense que c'est limité.
J'ai expérimenté hier avec mon NPU de mon AMD AI 9 HX 370.
Ce sont des puces assez intéressantes tout de même. Tu peux arriver à faire tourner des petits LLMs avec genre du 3b/4b peut-être un peu plus mais après on atteint la limite de la bête. La sur du gemma 4 e2b (de mémoire) j'étais à 15 token/s la où je serai à 30 ou plus avec le GPU (présent sur le même SoC), mais le tout pour une fraction de l'énergie utilisé (au final c'est peut-être 4 à 5 fois plus efficient).
Donc ça peut servir à avoir un petit LLM en tâche de fond pour des trucs simples, mais je pense qu'à la base c'est plus fait pour pouvoir lancer des algos de retouche photo, peut-être OCR, des trucs comme Wisper pour faire du speech-to-text en temps réel (faudrait que j'essaie d'ailleurs), du décodage de format utilisant des deep learning des trucs comme ça.
Pour AMD, l'outil pour lancer des LLM sur le NPU s'appelle FastFlowLM : https://github.com/FastFlowLM/FastFlowLM
Voici la liste des modèles qu'il peut gérer (c'est une quantification particulière) : https://fastflowlm.com/docs/models/
Et à ce que j'ai compris, tout ce petit monde est codé avec le compilateur IRON : https://github.com/amd/IRON/ qui permet d'utiliser au mieux le NPU sans toutefois coder en assembleur (mais j'ai pas du tout mis le nez dedans pour l'instant).
Et oui, c'est ça qui m'étonne le plus avec l'IA Générative c'est que cela nécessite tellement de puissance de calcul qu'on est retourné à l'air des mainframes.
Alors peut-être que la miniaturisation (j'entends par la le fait de pouvoir éxecuter un LLM de "haut niveau" sur son téléphone ou ordinateur personnel) va arriver plus vite que ce qu'on a vu avec les mainframes de l'époque, mais c'est pas sûr !
Un modèle bon en appel d'outils et paf ça fait des chocapic.
Je suis tout de même étonné, car un modèle dense de 27B c'est aujourd'hui très "petit" (par rapport au modèles commerciaux j'entends) et un modèle en MoE avec 10B actifs c'est aussi assez petit.
Je n'ai pas assez expérimenté avec ces tailles de modèles, mais il me semble que c'est bien limité. Il y a aussi la fenêtre de contexte qui joue beaucoup.
Comment ces modèles se comportent sur des tâches complexes ? Est-ce qu'il arrive a garder le cap sur des prompts longs avec plein de contraintes ?
Le peu que j'ai essayé des modèles de ce genre, ils n'étaient pas très doués. Si ton prompt système contient plein de contraintes, il va finir par en zapper quelques unes etc.
Merci pour les réponses, ce que je comprends c'est qu'en fait tout ton réseau ne dépends pas d'un seul provider contrairement a des architecture uniquement basées sur AWS ou OVH par exemple, mais si t'as plein de VM chez OVH et qu'il les coupe, faut quand même les recréer ailleurs. Juste que t'as prévu le projet pour ça.
Concernant les modèles que tu utilises, Qwen 3.5 35b c'est du "petit" dans le domaine, utilisable en quantifié sur une bonne carte graphique ou un pc avec beaucoup de VRAM en archi unifié. Quels sont tes retours qualitatifs ? Est-ce que les agents fonctionnent bien avec ça ? C'est pas un peu léger pour la partie raisonnement ?
Pour la conso, à ce que j'ai compris, un agent ne fait pas que 5 minutes d'inférence par jour, mais souvent bien plus si on lui demande de coder un app ou un truc comme ça.
Si c'est pour faire des petites tâches, j'avoue je n'ai pas trop compris toute la hype autour d'OpenClaw. Pour moi, lire, trier mes emails ou prendre un billet de train, j'ai pas besoin d'un agent pour ça :).
En tout cas, tu sembles avoir monter quelque chose de chouette qui pourrait intéresser du monde a priori. Bonne continuation !
Merci pour le partage de cette initiative, ça semble intéressant et à la lecture je me pose pas mal de question :
- Si les agents ne tournent pas sur des VPS sur quoi ils tournent ? Si c'est des "vraies" VM, elles tournent tout de même chez un fournisseur de service genre OVH ou autre, qu'est ce qui les empêchent de l'arrêter si elle viole les conditions de service ? Note : il y a peut-être des subtilités entre VPS et VM barebone que je ne connais pas.
- Je vois que l'inférence passe par LiberAI, donc la VM c'est que pour l'agent qui ne doit pas prendre beaucoup de ressource. En gros, on pourrait avoir un agent sur sa machine, comme OpenClaw c'est ça ? L'avantage c'est qu'on peut lancer "autant" d'agents (et d'argent :) qu'on veut et les laisser tourner 24/24.
- Sur LibertAI, j'ai vu que c'est un projet connexe, sans doute créé par tes soins aussi, ça loue des infras GPU et exécute des modèles a poids libres avec un chiffrement de bout en bout c'est ça ?
L'idée est pertinente vis à vis de la situation actuelle en tout cas.
Perso, je n'ai pas encore exploré ces outils, la quantité de token qu'ils utilisent m'effraie un peu, l'écolo et le techos en moi pleure quand je vois les machines qu'il faut pour faire tourner ces modèles et la quantité d'énergie nécessaire aussi.
Ce qui est très frustrant c'est de ce dire qu'il est aujourd'hui très onéreux, voir impossible, de faire tourner ce genre de modèle sur une machine locale. J'ai l'impression qu'on est revenu au temps des mainframes où nos ordinateurs ne sont que des terminaux. Vous me direz, c'est déjà le cas avec tous les services cloud et les GAFAM, mais je peux faire tourner un peertube, un serveur mail etc. sur ma vieille bécanne sans qu'elle bronche. Certes, si je dois servir des milliers d'utilisateurs en même temps, ça va galérer, mais là même pour un seul utilisateur c'est impossible !
Je ne connaissais pas Volte, et je n'avais pas vu qu'il supportait la 4G aussi ! Pourtant je ne l'ai jamais captée, j'étais persuadé qu'il n'était que 3G…
Je vais regarder il y a sans doute un réglage à faire ou alors c'est en lien avec mon opérateur (SFR). Enfin, pour ce que j'en fait je n'ai pas de soucis avec la 3G (si elle reste active !).
Et on peut aller sur internet avec mais bon que sur certains sites comme wikipédia par exemple :).
Quand ils sont venus simuler la création graphique, je n'ai rien dit, je ne savais pas peindre;
Quand ils sont venus simuler la création littéraire, je n'ai rien dit, j'écris vraiment mal;
Quand ils sont venus simuler la création de code, je n'ai rien dit, je ne développe pas;
Quand le monde fut rempli de merde générée, on s'était déjà tous tirés dans les pattes et plus personne ne travaillait ensemble.
La médiocrité a gagné.
J'aime beaucoup !
Merci pour ce retour et cette analyse.
Comme beaucoup je suis tiraillé entre l'intérêt que je porte à ces outils assez "magiques" il faut bien le dire et tout ce que ça m'inspire d'horreur sur le plan sociétale et écologique.
J'ai quand même creusé le sujet, j'ai passé un diplôme d' "Expert IA" (à Polytechnique Bordeaux d'ailleurs :D) pour comprendre un peu plus comment fonctionne ces systèmes.
Je commence à les utiliser et j'en vois tout de même des avantages indéniables dans la pratique du développement informatique (mon domaine), mais je n'ai pas encore fait le pas de l'intégrer totalement à ma base de code.
Je rejoins ton avis sur la relecture de code, c'est long, c'est fastidieux. Souvent, on finit par ne pas faire toutes nos remarques quand elles portent sur des aspects "minimes". Parfois, j'abandonne même sur l'aspect architectural quand ce n'est pas moi qui gère le projet. Mais si je devais laisser une IA faire, je crois que ça serait le massacre.
Perso les LLM m'aident beaucoup pour débroussailler un projet, une nouvelle techno, trouver comment écrire tel truc sur des technos que je ne vais pas devoir maîtriser par la suite ou quand ce n'est pas mon coeur de métier et que je n'ai pas le temps ou tout simplement l'envie de monter en compétence dessus.
Dans ce cas d'usage c'est une sorte de stackoverflow survitaminé et ça fonctionne vraiment bien !
C'est aussi très pratique pour rédiger une implémentation d'une fonction dont le domaine est bien circonscrit, que des tests peuvent facilement s'écrire etc. ça fonctionne aussi du tonnerre. Et pour une nouvelle implémentation, la relecture est plus simple justement car on part d'une page blanche, la logique est plus aisée à appréhender.
Mais je vois quand même que souvent les LLMs écrivent des choses bizarres parfois : genre avec des variables qui ne sont jamais utilisées, pas mal de répétitions, ils oublient aussi très facilement un contexte surtout s'il est détaillé etc.
Je sais que ce genre de problématique à tendance à réduire avec le temps, mais quand même, je ne crois pas qu'on soit encore à un niveau ou une IA peut comprendre l'intégralité d'une base de code et proposer des modifications de manière cohérente avec l'ensemble.
Peut-être que je me trompe ?
Je n'ai aussi jamais utiliser d'outil comme Cursor ou Copilot, mais j'ai des retours très positifs. Je reste encore assez méfiant (notamment sur les aspects non techniques liés aux GAFAM) cependant.
L'autre jour il y'avait un article d'une personne qui est rédactrice marketing indépendante et elle disait que maintenant 95% de ses clients lui demande de reprendre des textes générés par IA.
Ce phénomène risque d'arriver dans la tech, avec des boîtes qui vont engager en urgence des gens "compétents" pour corriger des problèmes de trucs live codé rapidement et livrés en production sans plus de vérification. C'est déjà en train d'arriver chez Amazon, Microsoft et tout. Ils s'étaient enflammé en interne sur l'usage de l'IA, pour beaucoup ils font machine arrière ou mette des règles plus strictes pour encadrer son usage.
Le gain de productivité ne serait qu'illusoire…
En tout cas, la où je trouve que ça excelle, c'est pour l'analyse de document. Des outils comme NotebookLM sont vraiment impressionnant et permette d'appréhender des documents volumineux, complexes (genre des normes) ou d'un autre niveau intellectuel (genre des articles scientifique dans un domaine peu maîtrisé) avec une aisance folle. Sérieux, si je devais garder un truc de toute l'IA générative, ça serait ça. Pouvoir discuter autour d'une base documentaire. C'est un énorme bon dans l'exploration de la connaissance je trouve.
On a pas encore testé d'installer Anubis, mais ça va peut-être une solution, bien que je n'apprécie pas bien ce genre de mécanismes qui empêche justement d'autres bots tout à fait légitimes…
Actuellement je travaille pour le réseau ISSN (qui travaille avec la BnF) et on vient de sortir notre nouveau portail (portal.issn.org), on s'est mangé un traffic totalement hallucinant provenant de bot IA pas très gentils et utilisant des IP domestiques par dizaines de milliers.
Résultat, notre infra est très vite tombée et on galère a mettre des protections efficaces… On a du genre 500000 r/heure sur un site qui fait des recherches elasticsearch assez lourdes, c'est beaucoup trop pour notre "petite" infra.
[^] # Re: Je suis un mauvais programmeur
Posté par Andréas Livet . En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 2 (+0/-0).
L'analogie avec les tableurs est intéressante, juste là si c'est bien fait (au sens ingénierie logiciel) les outils créés seront assez maintenables, mais très dispersés et fragmentés en effet !
Peut-être qu'une autre analogie c'est le paysage Android sur les différents téléphones.
[^] # Re: La demande
Posté par Andréas Livet . En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 2 (+0/-0).
Merci pour le lien, c'est très intéressant d'un point de vue pédagogique, c'est marquant ! Même si on sait qu'aujourd'hui ce n'est pas rentable, là c'est très visuel :).
[^] # Re: Pour être plus précis ...
Posté par Andréas Livet . En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 2 (+0/-0).
Je disais ça car dans le dernier podcast de Ed Zitron, y a une table ronde avec Cory Doctrow et il dit que les cols blancs de la tech auraient du se syndiquer depuis longtemps et qu'on a été chouchouté par les boîtes alors on voyait pas le mal et que maintenant on va être traité comme les autres, car on est devenu remplaçable.
https://omny.fm/shows/better-offline/czm-rewind-cory-doctorow-and-ed-zitron-on-enshittification-and-the-rot-economy/embed?media=Audio
Oui on va sans doute aller vers ça, et il y a déjà des devs clairement dans cette démarche (par exemple Drew Devault) mais à part peut-être dans des domaines très sensibles où l'on ne voudra pas dépendre de ce genre d'outil, ou peut-être des domaines où il y a des règlementations particulières, je dis n'importe quoi mais peut-être l'aviation ?
Sinon, à part pour la gloire ou pour du logiciel libre fait sur son temps libre, je ne sais pas si ça va prendre.
Le seul frein que je verrai à l'adoption massive de ces outils c'est leur coût. Je pense qu'on va vite arriver à des abonnements ou des coûts facilement 5X plus cher qu'aujourd'hui. Donc, je vois bien le truc venir avec des toutes petites équipes de une ou deux personnes qui ont des méga abonnements LLM et autres qui font le taf de 5 ? Peut-être 10 personnes ?
Oui c'est fort probable, vu la capacité qu'on ces outils à trouver des failles zero day !
[^] # Re: Pour être plus précis ...
Posté par Andréas Livet . En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 3 (+1/-0).
Oui tu as raison, j'aurai du préciser ce que j'entends par "qualité", surtout que mes tests portent sur des projets pas du tout critiques.
Donc dans mon cas, quand je parlais de qualité, c'est plus en terme de documentation, nommage, structuration du code, nommage et organisation des commits etc.
Ce qui n'est qu'un aspect de la qualité, mais c'est souvent la critique du vibecoding qui est qu'on ne peut pas se retrouver dans le code. La ce n'est pas mon vécu, le code est très lisible, l'historique claire. Y clairement des choses que je n'aurai pas fait comme ça et y a moyen de faire faire la refacto ou de la faire soit même sans trop de problème.
Après pour des domaines plus critiques, de ce que j'ai compris c'est tout de même faisable d'avoir une qualité en terme de sécurité, de respect des bonnes pratiques etc.
Bien sûr, dans ces cas là vaut mieux avoir une bonne maitrise du domaine pour être sûr qu'il n'y a pas trop d'erreur.
Le piège qui arrive forcément c'est qu'au bout d'un moment t'arrête de faire des revues systématiques et tu te mets à faire confiance. Je pense clairement que c'est ce qui est arrivé chez Amazon ou Microsoft et ils s'en sont mordu les doigts.
On en est qu'au balbutiements pour ce qui est des bonnes pratiques d'utilisation de ces outils et clairement y a des grosses marges d'amélioration, je voulais juste souligner que ça avait déjà atteint un stade où c'est impressionnant et utilisable par des devs pro. Pas juste pour vibecoder un truc qu'on ne maintiendra pas.
[^] # Re: Pour être plus précis ...
Posté par Andréas Livet . En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 3 (+1/-0). Dernière modification le 26 mai 2026 à 16:49.
Oui c'est sûr, questionner le besoin est une démarche très importante qu'on oublie bien souvent de faire dans nos sociétés.
Tu parles aussi dans ton autre commentaire de cette envie de faire moins de code, de pouvoir lire le code, y réfléchir etc. Moi aussi, cela fait partie du plaisir que j'ai dans le code : trouver la bonne abstraction, la bonne stratégie de test, le bon nommage etc. Là ce n'est clairement plus du tout le même métier !
En te débrouillant bien (comme je l'ai décrit plus haut) tu peux arriver à avoir du code auditable, mais clairement tu es beaucoup moins en maîtrise.
Le "problème" c'est qu'une entreprise ou un client va voir le gain immédiat et s'en fou que la nature du travail de dev change, c'est ce qu'on appelle la prolétarisation. On pensait que c'était réservé qu'aux ouvriers, ça nous arrive à nous maintenant… si j'étais en mode Cory Doctrow, je dirai qu'il faut se syndiquer et refuser tout ça :)
[^] # Re: Pour être plus précis ...
Posté par Andréas Livet . En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 3 (+2/-1).
J'ai bien aimé les récentes conf "AI Engineer" notamment celle du créateur de pi : https://youtu.be/RjfbvDXpFls
Y a aussi celle-la qui m'a donné plein de bonnes bases : https://youtu.be/fdbXNWkpPMY
Et aussi surtout cette conf : https://youtu.be/-QFHIoCo-Ko Ce mec, Matt Pocock est vraiment très pertinent sur le sujet.
[^] # Re: Pour être plus précis ...
Posté par Andréas Livet . En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 5 (+5/-2).
Encore une fois, je ne cherche pas à faire la promotion de ces outils, leur usage me questionne énormément. Juste c'est un constat, en utilisant des outils agentiques de ce type, je pense être réellement 10X plus productifs, voir sans doute plus.
En fait, ces outils codent (et utilisent des outils en ligne de commande) a une vitesse folle, ça on l'avait compris, mais maintenant qu'on peut les "commander", leur donner accès à un dossier, certaines commandes etc. Y a des processus de travail qui émergent où tu spécifies ce que tu veux faire en passant une sorte d'interrogatoire avec le LLM, il va te poser plein de questions, te faire des propositions, tu peux aussi lui faire des remarques lui poser des questions etc. Quand tu sens qu'il y a un terrain d'entente, que le périmètre est bien compris, bah c'est presque gagné.
Ensuite, y a plus qu'à lui faire résumer tout ça, découper en tâches pas trop grosses et qui font sens fonctionnellement et tu déroules tout le tapis : analyse => code => revue de style (est-ce qu'il y a pas des répétitions dans le code, est-ce le code ajouté n'induit pas une refonte du code alentour, est-ce que les variables sont bien nommées, est-ce que les commentaires font sens etc. => autre type de revue en fonction du domaine et du framework (si c'est du web, un truc qui vérifie les failles courantes, est-ce que tu utilises bien les dernières manières de faire pour ton framework etc.) => documentation (mise à jour de la doc API, du README etc.) => enfin commit.
A chacune de ces étapes, tu peux rentrer dans la boucle, donner ton avis et faire reboucler l'outil si besoin.
Honnêtement, avant qu'un ami me parle de cette manière de travailler, je ne pensais pas que ces outils en était déjà à ce stade de maturité.
L'énorme souci qu'à cette approche, c'est que ça repose sur une infrastructure démesurée ! Et engendre des couts totalement invraisemblables. Déjà, ça coute cher en API ou abonnement (tout dépend ce qu'on a pris), je dirai pour faire tourner ça toute la journée de code, ça peut aller jusqu'à 10€/jour sur une API pas trop chère genre deepseek-v4-flash et pour un abonnement, si tu veux pour l'utiliser intensivement c'est minimum du 100€/mois, voir 200€, et encore je pense que tu te sens limité à un moment, par contre c'est sûr des LLMs plus puissants.
Mais là, je pense qu'on est encore dans une phase où on ne paye pas le cout réel de ces infrastructures. Puis il y a le cout environnementale, sociale, sociétale de toute cette technologie.
Est-ce que cette débauche d'énergie, de ressources, est utile ? Est-ce que j'avais réellement besoin de créer des applications plus rapidement ? Clairement non ! Mais bon, est-ce qu'on avait besoin de créer des énormes infra cloud pour pouvoir uploader et visionner des milliards de vidéos en ligne ? Non plus, et pourtant ça se fait depuis 20 ans et y a pas grand monde qui se plaint de ça.
Je ne veux pas dire par là que comme on ne s'est pas plaint de l'émergence de ces énormes infrastructures avant (enfin bien sûr que certains en ont parlé, mais disons qu'aujourd'hui avec l'IA cette problématique est plus "visible"), c'est OK pour qu'on continue avec l'IA. Je veux plutôt dire que l'IA est dans une sorte de continuité avec le projet des GAFAM qui se met en place depuis une à deux décennies.
[^] # Re: Pour être plus précis ...
Posté par Andréas Livet . En réponse au journal Audition de la direction de Mistral AI et Solo dev. Évalué à 5 (+8/-5).
Je fais le même constat, ça fait quelques semaines que je m'essaie à la programmation "agentique" via claude code et maintenant "pi" et d'un point de vue productivité ET qualité (j'insiste la dessus), je suis 10X plus productif, voir peut-être plus, surtout dans des domaines que je maîtrise mal.
Franchement, j'hallucine à quel point ces systèmes sont devenus performants, j'ai suivi ça de près, mais je ne pensais pas que ça irait aussi vite honnêtement.
Et les personnes qui disent que ça ne produit pas du code de qualité, qu'on ne s'y retrouve pas après ou autre parlent uniquement de vibecoding. La avec un pipeline bien pensé, une bonne spécification déterminé à l'avance, des règles de validation, de documentation etc. Je produis du code de bien meilleure qualité que si je codais sans IA.
Parfois, il y a des ratés (ce qui arrive aussi en tant qu'humain, genre des fichiers de debug rajouté dans le commit, des path absolus au lieu de relatif dans un fichier de conf etc.) mais c'est assez minime et dans l'ensemble c'est de très bonne qualité. Puis, on peut très facilement améliorer l'autonomie de ces systèmes en fonction du contexte spécifique à un projet en modifiant les prompts des skills.
Je ne cherche pas du tout à faire la pub de ces systèmes, franchement je trouve que la quantité d'énergie et de matériel nécessaire à les faire tourner me donne le vertige, les investissement dans ce domaines sont à un niveau quasiment "absurde", l'impact environnemental et sociétal est énorme etc. juste ça a plié le game ! Notre travail en temps que développeurs ne sera plus le même, si ces systèmes peuvent perdurer sur le long terme !
Comme disait un ami : "je n'ai pas envie d'utiliser ces système, mais si je veux continuer à bosser dans ce domaine, je suis obligé et ça ne me fait pas plaisir". Je partage malheureusement son avis… Et oui, X10 de productivité, ne va pas correspondre à X10 de revenus pour les entreprises qui utilisent l'IA. On va plutôt vers du X10 de licenciement je pense pour garder la même productivité avec beaucoup moins de personnes.
Après, cet énorme gain en productivité ouvre la voie à des choses qu'on aurait pas oser faire avant, des sides projects un peu fous, des projets trop épiques pour être fait par une personne, et ces projets peuvent eux être sous licence libre. Je pense qu'on va voir une augmentation drastique du nombre de projets libres et dans ceux là, peut-être des pépites ? Est-ce que ça vaut toutes les négativités que ça va/a engendré ? Pas sûr…
[^] # Re: Complement d’information
Posté par Andréas Livet . En réponse au journal Auto-héberger ses IA. Évalué à 2 (+1/-1).
C'est carrément acceptable, sur ma machine, j'ai une bonne vitesse aussi sur du gemma4 26b, vu que c'est des mélanges d'experts (comme oss-20B il me semble) c'est assez rapide (chez moi on est plus autour des 20t/s si je me rappelle bien). Mais bon pour faire du code en mode agentic c'est très limite en terme de qualité.
Le LLM se perd rapidement, ne suit pas des prompts simple genre "met à jour la documentation avec ce qu'on s'est dit", c'est juste un résumé à faire et sauvegarder un fichier, bah une fois sur deux il va se perdre en route, même avec un contexte pas trop gros.
Par contre, c'est pas mal avec OpenWebUi, pour faire du RAG et du chatbot "classique" (poser des questions, creuser des sujets, bien sûr c'est pas très "fiable" mais sur des explications de choses très connues, ça fonctionne bien je pense), de l'analyse d'image etc.
[^] # Re: Merci
Posté par Andréas Livet . En réponse au journal Auto-héberger ses IA. Évalué à 3 (+1/-0). Dernière modification le 19 mai 2026 à 21:57.
Oui c'est encore tout frais ce genre de trucs. Par exemple pour mon NPU il faut Linux 7.0 pour qu'il soit intégré nativement, mais y a un module dkms qui permet de le faire tourner sur des versions plus ancienne, mais attention, pas sur des kernel ubuntu d'origine… il faut donc un kernel OEM etc. Bref, comme je disais dans un autre commentaire, on est vraiment loin du "out of the box"…
J'ai pas encore regardé autour de wisper sur NPU mais j'imagine qu'il y a des projets de ce genre, ça peut être super cool, si jamais tu trouves quelque chose je suis preneur ;).
[^] # Re: Plusieurs cartes en SLI ?
Posté par Andréas Livet . En réponse au journal Auto-héberger ses IA. Évalué à 3 (+1/-0).
Merci pour les précisions :)
# Plusieurs cartes en SLI ?
Posté par Andréas Livet . En réponse au journal Auto-héberger ses IA. Évalué à 3 (+1/-0).
Merci pour ce journal, franchement je me tâtais à faire un retour de ce genre en journal et en l'espace de 2 jours on a eu 2 journaux sur ce sujet donc pas besoin d'en faire un troisième.
Je me questionne sur les 3 cartes graphiques que tu as sur ta machine. J'imagine que c'est du SLI ? De ce que j'ai compris le gain de perf est pas si important que ça, certes on a plus de VRAM, mais la machine n'arrive pas à faire les calculs plus rapidement, voir peut-être l'inverse non ?
De plus, ça fait 3 cartes graphiques à alimenter donc ça doit consommer un max non ?
En tout cas c'est clairement pas évident d'auto héberger des "gros" LLM aujourd'hui. Peut-être que ça ne le sera jamais ? Vu les perspectives de production de RAM etc sur les années à venir, on risque d'attendre un peu pour avoir des machines avec plein de VRAM ou de mémoire partagée rapide pour pas cher…
J'ai parfois l'impression de perdre mon temps (et mon argent) avec toutes ces expérimentations…
[^] # Re: Complement d’information
Posté par Andréas Livet . En réponse au journal Auto-héberger ses IA. Évalué à 3 (+1/-0).
J'ai pris un AMD Ryzen AI 9 HX 370 avec 64GB de ram justement pour ça (il a la même bande passante de que les Strix Halo il me semble) et franchement je suis assez déçu.
Avec 64Gb tu peux charger des modèles potentiellement plus gros, mais il vont tourner trop lentement…
J'ai fait des tests avec Qwen 3.6 27b dense et Gemma 4 31b dense et même avec le mtp (truc qui vient tout juste d'être mis en place chez llamma.cpp, quand je dis tout juste c'est hier) qui boost les perfs entre 1,4X et 2,5X, bah je suis genre à 6 tokens/s avec un contexte vierge, donc ça doit vite retomber à du 4 t/s, voir moins avec un contexte important. J'aimerai me tromper, mais j'ai fait pas mal d'essais, tester plusieurs config (Vulkan ou HIP), je me suis cassé les dents avec les problèmes de drivers ROCm, les noyaux linux, la config grub, bios etc. J'ai vraiment passé du temps pour m'assurer que tout était bon, car l'expérience actuelle n'est pas du tout "out of the box" sur une machine AMD Ryzen sous Linux.
Sur du Strix Halo t'es sans doute un peu plus rapide car le processeur est plus puissant, donc t'arrives peut-être à du 10 tokens/s, 15 grand max je dirai. Mais ça reste assez limite je trouve.
Les nouveaux modèles comme DeepSeek v4-flash qui sont un mélange d'expert de 13b sont peut-être l'avenir pour ce genre de config. Par contre, ils sont encore trop gros (154B pour v4-flash), mais ils ont plein d'optimisation sur la taille du contexte et tout, donc avec un Strix Halo et 128Gb de RAM, j'imagine que ça commence à être utilisable, pas lu de retours détaillés la dessus.
En tout cas, c'est une piste, mais ça fait quand même des machines à minimum 3000€ aujourd'hui et non upgradable (tous les modèles que je connais ont de la mémoire soudée, y a peut-être moyen d'acheter le processeur à part - jamais vu - et mettre des barettes en LPCAMM2 dessus).
Si ça se confirme qu'un modèle comme deepseek v4-flash est utilisable sur ce genre de config avec un large contexte, alors ça rendrait l'usage d'un LLM local très probable pour faire du code. Soit en "vibe codant", soit en ayant une approche plus structurée qu'on appelle "agentic engineering", j'ai de très très bon retours de collègues sur ce genre d'approche. Bon par contre, ça change de manière drastique la façon de travailler… Les retours sont que c'est plus le même boulot et que le plaisir n'y est plus…
[^] # Re: GPU AMD
Posté par Andréas Livet . En réponse au journal Auto-héberger ses IA. Évalué à 5 (+3/-0).
J'ai eu des grosses galère aussi sur mon proc AMD pour le faire tourner sur le GPU, il se trouve que j'avais mal installé les drivers ROCm, pour les Ryzen, il ne faut pas le mode dkms, y' a 2 méthodes d'installation dans la doc AMD, j'avais lu la mauvaise… je peux te dire que j'en ai passé du temps pour comprendre le prob…
[^] # Re: Mode RPC de llamacpp
Posté par Andréas Livet . En réponse au journal Auto-héberger ses IA. Évalué à 4 (+2/-0).
Perso j'ai fait des tests avec 2 mac mini m4 16Gb branché sur le thunderbolt 4 en pensant que ça aiderait et les perfs sont pas top.
Il faut une jonction thunderbolt 5 pour que ça fonctionne bien et c'est que sur les m4 pro…
J'avais un peu de foi dans ces techniques, mais je crois que c'est plus de la bidouille qu'autre chose, ou alors c'est bien utile pour de l'inférence à plusieurs, mais pour un seul utilisateur je pense que c'est limité.
[^] # Re: Merci
Posté par Andréas Livet . En réponse au journal Auto-héberger ses IA. Évalué à 6 (+4/-0).
J'ai expérimenté hier avec mon NPU de mon AMD AI 9 HX 370.
Ce sont des puces assez intéressantes tout de même. Tu peux arriver à faire tourner des petits LLMs avec genre du 3b/4b peut-être un peu plus mais après on atteint la limite de la bête. La sur du gemma 4 e2b (de mémoire) j'étais à 15 token/s la où je serai à 30 ou plus avec le GPU (présent sur le même SoC), mais le tout pour une fraction de l'énergie utilisé (au final c'est peut-être 4 à 5 fois plus efficient).
Donc ça peut servir à avoir un petit LLM en tâche de fond pour des trucs simples, mais je pense qu'à la base c'est plus fait pour pouvoir lancer des algos de retouche photo, peut-être OCR, des trucs comme Wisper pour faire du speech-to-text en temps réel (faudrait que j'essaie d'ailleurs), du décodage de format utilisant des deep learning des trucs comme ça.
Pour AMD, l'outil pour lancer des LLM sur le NPU s'appelle FastFlowLM : https://github.com/FastFlowLM/FastFlowLM
Voici la liste des modèles qu'il peut gérer (c'est une quantification particulière) : https://fastflowlm.com/docs/models/
Et à ce que j'ai compris, tout ce petit monde est codé avec le compilateur IRON : https://github.com/amd/IRON/ qui permet d'utiliser au mieux le NPU sans toutefois coder en assembleur (mais j'ai pas du tout mis le nez dedans pour l'instant).
# C'est ce que je dis depuis le début
Posté par Andréas Livet . En réponse au lien Les LLM sont un retour aux mainframes. Évalué à 3 (+3/-2).
Et oui, c'est ça qui m'étonne le plus avec l'IA Générative c'est que cela nécessite tellement de puissance de calcul qu'on est retourné à l'air des mainframes.
Alors peut-être que la miniaturisation (j'entends par la le fait de pouvoir éxecuter un LLM de "haut niveau" sur son téléphone ou ordinateur personnel) va arriver plus vite que ce qu'on a vu avec les mainframes de l'époque, mais c'est pas sûr !
[^] # Re: Quelques questions
Posté par Andréas Livet . En réponse au journal Vos agents IA dépendent d’entreprises américaines, et ça devrait vous poser problème. Évalué à 2 (+0/-0). Dernière modification le 25 mars 2026 à 14:50.
J'imagine que le "megamind" utilise pas Qwen 35b, mais sans doute 397b ;).
[^] # Re: Quelques questions
Posté par Andréas Livet . En réponse au journal Vos agents IA dépendent d’entreprises américaines, et ça devrait vous poser problème. Évalué à 3 (+1/-0).
Je suis tout de même étonné, car un modèle dense de 27B c'est aujourd'hui très "petit" (par rapport au modèles commerciaux j'entends) et un modèle en MoE avec 10B actifs c'est aussi assez petit.
Je n'ai pas assez expérimenté avec ces tailles de modèles, mais il me semble que c'est bien limité. Il y a aussi la fenêtre de contexte qui joue beaucoup.
Comment ces modèles se comportent sur des tâches complexes ? Est-ce qu'il arrive a garder le cap sur des prompts longs avec plein de contraintes ?
Le peu que j'ai essayé des modèles de ce genre, ils n'étaient pas très doués. Si ton prompt système contient plein de contraintes, il va finir par en zapper quelques unes etc.
[^] # Re: Quelques questions
Posté par Andréas Livet . En réponse au journal Vos agents IA dépendent d’entreprises américaines, et ça devrait vous poser problème. Évalué à 2 (+0/-0).
Merci pour les réponses, ce que je comprends c'est qu'en fait tout ton réseau ne dépends pas d'un seul provider contrairement a des architecture uniquement basées sur AWS ou OVH par exemple, mais si t'as plein de VM chez OVH et qu'il les coupe, faut quand même les recréer ailleurs. Juste que t'as prévu le projet pour ça.
Concernant les modèles que tu utilises, Qwen 3.5 35b c'est du "petit" dans le domaine, utilisable en quantifié sur une bonne carte graphique ou un pc avec beaucoup de VRAM en archi unifié. Quels sont tes retours qualitatifs ? Est-ce que les agents fonctionnent bien avec ça ? C'est pas un peu léger pour la partie raisonnement ?
Pour la conso, à ce que j'ai compris, un agent ne fait pas que 5 minutes d'inférence par jour, mais souvent bien plus si on lui demande de coder un app ou un truc comme ça.
Si c'est pour faire des petites tâches, j'avoue je n'ai pas trop compris toute la hype autour d'OpenClaw. Pour moi, lire, trier mes emails ou prendre un billet de train, j'ai pas besoin d'un agent pour ça :).
En tout cas, tu sembles avoir monter quelque chose de chouette qui pourrait intéresser du monde a priori. Bonne continuation !
# Quelques questions
Posté par Andréas Livet . En réponse au journal Vos agents IA dépendent d’entreprises américaines, et ça devrait vous poser problème. Évalué à 7 (+5/-0).
Merci pour le partage de cette initiative, ça semble intéressant et à la lecture je me pose pas mal de question :
- Si les agents ne tournent pas sur des VPS sur quoi ils tournent ? Si c'est des "vraies" VM, elles tournent tout de même chez un fournisseur de service genre OVH ou autre, qu'est ce qui les empêchent de l'arrêter si elle viole les conditions de service ? Note : il y a peut-être des subtilités entre VPS et VM barebone que je ne connais pas.
- Je vois que l'inférence passe par LiberAI, donc la VM c'est que pour l'agent qui ne doit pas prendre beaucoup de ressource. En gros, on pourrait avoir un agent sur sa machine, comme OpenClaw c'est ça ? L'avantage c'est qu'on peut lancer "autant" d'agents (et d'argent :) qu'on veut et les laisser tourner 24/24.
- Sur LibertAI, j'ai vu que c'est un projet connexe, sans doute créé par tes soins aussi, ça loue des infras GPU et exécute des modèles a poids libres avec un chiffrement de bout en bout c'est ça ?
L'idée est pertinente vis à vis de la situation actuelle en tout cas.
Perso, je n'ai pas encore exploré ces outils, la quantité de token qu'ils utilisent m'effraie un peu, l'écolo et le techos en moi pleure quand je vois les machines qu'il faut pour faire tourner ces modèles et la quantité d'énergie nécessaire aussi.
Ce qui est très frustrant c'est de ce dire qu'il est aujourd'hui très onéreux, voir impossible, de faire tourner ce genre de modèle sur une machine locale. J'ai l'impression qu'on est revenu au temps des mainframes où nos ordinateurs ne sont que des terminaux. Vous me direz, c'est déjà le cas avec tous les services cloud et les GAFAM, mais je peux faire tourner un peertube, un serveur mail etc. sur ma vieille bécanne sans qu'elle bronche. Certes, si je dois servir des milliers d'utilisateurs en même temps, ça va galérer, mais là même pour un seul utilisateur c'est impossible !
[^] # Re: Aïe je vais devoir changer de téléphone....
Posté par Andréas Livet . En réponse au lien Free Mobile : pourquoi certains utilisateurs ont constaté des perturbations d’appels (fin de 3G). Évalué à 2.
Je ne connaissais pas Volte, et je n'avais pas vu qu'il supportait la 4G aussi ! Pourtant je ne l'ai jamais captée, j'étais persuadé qu'il n'était que 3G…
Je vais regarder il y a sans doute un réglage à faire ou alors c'est en lien avec mon opérateur (SFR). Enfin, pour ce que j'en fait je n'ai pas de soucis avec la 3G (si elle reste active !).
Et on peut aller sur internet avec mais bon que sur certains sites comme wikipédia par exemple :).
[^] # Re: Pendant ce temps
Posté par Andréas Livet . En réponse au journal De développeur à orchestrateur, comment l'IA a changé ma vie. Évalué à 5 (+3/-0).
J'aime beaucoup !
Merci pour ce retour et cette analyse.
Comme beaucoup je suis tiraillé entre l'intérêt que je porte à ces outils assez "magiques" il faut bien le dire et tout ce que ça m'inspire d'horreur sur le plan sociétale et écologique.
J'ai quand même creusé le sujet, j'ai passé un diplôme d' "Expert IA" (à Polytechnique Bordeaux d'ailleurs :D) pour comprendre un peu plus comment fonctionne ces systèmes.
Je commence à les utiliser et j'en vois tout de même des avantages indéniables dans la pratique du développement informatique (mon domaine), mais je n'ai pas encore fait le pas de l'intégrer totalement à ma base de code.
Je rejoins ton avis sur la relecture de code, c'est long, c'est fastidieux. Souvent, on finit par ne pas faire toutes nos remarques quand elles portent sur des aspects "minimes". Parfois, j'abandonne même sur l'aspect architectural quand ce n'est pas moi qui gère le projet. Mais si je devais laisser une IA faire, je crois que ça serait le massacre.
Perso les LLM m'aident beaucoup pour débroussailler un projet, une nouvelle techno, trouver comment écrire tel truc sur des technos que je ne vais pas devoir maîtriser par la suite ou quand ce n'est pas mon coeur de métier et que je n'ai pas le temps ou tout simplement l'envie de monter en compétence dessus.
Dans ce cas d'usage c'est une sorte de stackoverflow survitaminé et ça fonctionne vraiment bien !
C'est aussi très pratique pour rédiger une implémentation d'une fonction dont le domaine est bien circonscrit, que des tests peuvent facilement s'écrire etc. ça fonctionne aussi du tonnerre. Et pour une nouvelle implémentation, la relecture est plus simple justement car on part d'une page blanche, la logique est plus aisée à appréhender.
Mais je vois quand même que souvent les LLMs écrivent des choses bizarres parfois : genre avec des variables qui ne sont jamais utilisées, pas mal de répétitions, ils oublient aussi très facilement un contexte surtout s'il est détaillé etc.
Je sais que ce genre de problématique à tendance à réduire avec le temps, mais quand même, je ne crois pas qu'on soit encore à un niveau ou une IA peut comprendre l'intégralité d'une base de code et proposer des modifications de manière cohérente avec l'ensemble.
Peut-être que je me trompe ?
Je n'ai aussi jamais utiliser d'outil comme Cursor ou Copilot, mais j'ai des retours très positifs. Je reste encore assez méfiant (notamment sur les aspects non techniques liés aux GAFAM) cependant.
L'autre jour il y'avait un article d'une personne qui est rédactrice marketing indépendante et elle disait que maintenant 95% de ses clients lui demande de reprendre des textes générés par IA.
Ce phénomène risque d'arriver dans la tech, avec des boîtes qui vont engager en urgence des gens "compétents" pour corriger des problèmes de trucs live codé rapidement et livrés en production sans plus de vérification. C'est déjà en train d'arriver chez Amazon, Microsoft et tout. Ils s'étaient enflammé en interne sur l'usage de l'IA, pour beaucoup ils font machine arrière ou mette des règles plus strictes pour encadrer son usage.
Le gain de productivité ne serait qu'illusoire…
En tout cas, la où je trouve que ça excelle, c'est pour l'analyse de document. Des outils comme NotebookLM sont vraiment impressionnant et permette d'appréhender des documents volumineux, complexes (genre des normes) ou d'un autre niveau intellectuel (genre des articles scientifique dans un domaine peu maîtrisé) avec une aisance folle. Sérieux, si je devais garder un truc de toute l'IA générative, ça serait ça. Pouvoir discuter autour d'une base documentaire. C'est un énorme bon dans l'exploration de la connaissance je trouve.
[^] # Re: Je confirme
Posté par Andréas Livet . En réponse au lien Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (robots BnF empêchés de faire leur travail). Évalué à 3 (+2/-0).
On a pas encore testé d'installer Anubis, mais ça va peut-être une solution, bien que je n'apprécie pas bien ce genre de mécanismes qui empêche justement d'autres bots tout à fait légitimes…
# Je confirme
Posté par Andréas Livet . En réponse au lien Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (robots BnF empêchés de faire leur travail). Évalué à 4 (+3/-0).
Actuellement je travaille pour le réseau ISSN (qui travaille avec la BnF) et on vient de sortir notre nouveau portail (portal.issn.org), on s'est mangé un traffic totalement hallucinant provenant de bot IA pas très gentils et utilisant des IP domestiques par dizaines de milliers.
Résultat, notre infra est très vite tombée et on galère a mettre des protections efficaces… On a du genre 500000 r/heure sur un site qui fait des recherches elasticsearch assez lourdes, c'est beaucoup trop pour notre "petite" infra.