… et le plaisir de coder ?
… et le plaisir de concevoir ses programmes ?
… et le plaisir de l'artisanat ?
Dans ces débats, je trouve qu'on occulte beaucoup l'activité de création, que ce soit au sujet des programmes ou plus généralement du texte. Il y a un parallèle. Je me moque de lire de dépêches AFP au style lisse et purement informatif, mais j'aime lire un papier ou un roman avec du style : est-ce la meme chose pour la programmation ? Un code que j'écris et que je dois maintenir, j'essaie de le concevoir et de le tourner d'une façon qui facilite son évolution et sa maintenance. Il faudra me convaincre que la génération est le bon outil pour ce faire.
Quant au vibe coding qui pullule maintenant sur les LinkedIN, comment dire ?
Je ne suis pas prof, mec.
Et je ne cherche pas à convaincre qui que ce soit.
Je parle de mon expérience, ca fait 10 ans que je bosse avec ces algos.
Possible que je me trompe.
Je travaille suffisamment avec les algorithmes de ML pour savoir que c'est trop opaque et très sensibles aux données d'entrées. Quand un programme fournit une prédiction ou un résultat, que l'utilisateur ou le client me demande "pourquoi telle prédiction" ou "pourquoi tel résultat" et que tu lui réponds "aucune idée, ca doit être dans les données" … bah j'ai l'air d'un con. Idem sur les sorties des LLM, bien entendu. Tout ca, c'est marrant, on rigole bien, ca fait des conférences rigolotes et des interventions devant des gens sérieux, mais au final, je trouve que le ML est à double tranchant - et hors de question que j'en fasse l'alpha et l'omega de l'informatique.
il y a forcément un moment où changer un seul pixel va te faire changer de catégorie.
Oui.
Mais ce n'est pas le sujet.
Il y a foule d'attaques où changer des pixels de manière imperceptible à l'oeil (=le chat reste un chat) fait changer la catégorie predite. La classification par NN marche super bien mais reste totalement incompréhensible.
On fixe une graine (seed), on fixe l'ordre des données et le programme devient deterministe C'est un pré-requis nécessaire quand on veut comparer les perfs d'un algorithme d'apprentissage. Sinon on est en aveugle.
LLM etc
Je ne demande rien aux LLM. Ces programmes sont impressionnants, parfois utiles et souvent rigolos. Je ne vois pas le lien avec l'intelligence humaine, je ne suis pas compétent sur le sujet.
Beaucoup de choses sont plus stables qu'un humain.
Une chaise à trois pieds, par exemple.
Par contre, une sortie de LLM n'est pas stable. La sortie d'un réseau de neurones n'est pas stable, un pixel suffit à changer une classification. Les exemples pullulent. En informatique, on aime bien la stabilité et la reproductibilité, non ?
C'est vieux.
Vous l'avez probablement déjà lu 17x, dont 18x ici.
Voici un texte écrit par l'auteur de TAOCP sur ChatGPT version 2023
Preface: Since one of today's popular recreations is to play with chatGPT, I decided on 07 April 2023 to try my own little experiment, as part of a correspondence with Stephen Wolfram. The results were sufficiently interesting that I passed them on to a few friends the next day, and I've also been mentioning them in conversation when the topic comes up. So I was asked to post the story online, and here it is (lightly edited)!
Well this has been interesting indeed. Studying the task of how to fake it certainly leads to insightful subproblems galore. As well as fun conversations during meals.
I find it fascinating that novelists galore have written for decades about scenarios that might occur after a "singularity" in which superintelligent machines exist. But as far as I know, not a single novelist has realized that such a singularity would almost surely be preceded by a world in which machines are 0.01% intelligent (say), and in which millions of real people would be able to interact with them freely at essentially no cost.
I myself shall certainly continue to leave such research to others, and to devote my time to developing concepts that are authentic and trustworthy. And I hope you do the same.
J'ai lu un avis de Linus du meme ordre, moins littéraire et plus direct : "90% de l'IA c'est du marketing, attendons 5 ans histoire de voir ce que ca donne".
Alors vas-y, juste pour vérifier : donne-nous un exemple, une tâche intellectuelle qui est à la portée de tout être humain pris au hasard dans la rue mais pas d'un LLM.
Ils n'ont aucun humour.
Ils ne comprennent pas les règles des dames.
Ils ne savent pas reagir en dehors de leur contexte d'apprentissage.
Rappelons qu'il n'existe pas de définition de l'intelligence.
En fait, la discussion est un peu stérile car même les chercheurs ne comprennent pas bien ce qu'il se passe dans un LLM ou un NN. Exemple intéressant ici. La situation est tres confuse, et il y a une grosse part de psychologie dans cette histoire.
En fait, je n'ai pas les idées claires sur la liberté d'un programme de ML. A priori, je dirais qu'on doit pouvoir tout reproduire localement, car l'intérêt (l'essence) du programme ML entraîné réside dans son … entraînement. S'il n'est pas reproductible, il n'est pas libre. Donc il faut tout le processus + les données.
Dans le cas du renforcement, je dirai pareil : il faut le processus total pour régénérer P, =P1. Mais ça se discute ? Disons que dans les deux cas, P1 + D (si ≠{}) sont nécessaires.
Donc il y a deux choses différentes :
- le programme entraîné, ~binaire
- le processus d'entraînement
On sera peut-être d'accord. Il faudrait repenser cette notion de logiciel libre dans le cas du ML, ça n'est probablement pas comparable.
Maintenant, on se heurte au problème de la boite noire : faire de la retro-ingénierie sur un NN c'est complexe, voire impossible. C'est peut-être aussi une limite - ou hors-sujet :)
Il s'est entraîné en jouant contre lui-même.
Le processus d'entrainement est un peu différent, c'est de l'apprentissage par renforcement. Reste que les humains ont conçu le processus.
Un réseau de neurone sans les données d'entraînement ni les soft, c'est comme un binaire…
Tres exactement mon avis.
C'est pour cette raison que les modeles fournis par (cocorico) Mistral ne sont pas vraiment ouverts. Il faut fournir l'ensemble : modele, procédure d'entrainement, procédure de validation, données. Sans ça, on ne peut pas reproduire.
On peut préciser des paramètres en dur lors de l'instanciation du modèle. Jette un coup d'oeil aux modeles présentés dans la bible sklearn par exemple.
Mais pour un modèle d'apprentissage automatique, ca n'est pas trop l'idée : il faut justement laisser le programme d'entrainement ajuster les parametres.
L'apprentissage automatique, c'est simple en réalité. Un programme d'entraînement avec un modèle interne (neural nets, SVM, random forests etc) et des données. Il y a une obstination actuelle sur les neural nets car … ils fonctionnent bien !
Les données sont fournies au programme, qui adapte les poids / paramètres internes du modèle. À la fin, on a un modèle entraîné.
De mon point de vue très pragmatique et limité de data scientist, un modèle sera donc libre si le code du programme d'entraînement et du modèle est libre, et si les données d'entraînement le sont aussi. Le modèle entraîné seul ne suffit pas, et de loin car on comprend souvent mal comment l'information y est encodée.
De loin et dans le brouillard, j'ai l'impression que ce qui se passe avec le travail déporté et relocalisé exciterait beaucoup Marx, en fait. Probablement une preuve que son analyse marche plutôt super bien … ?
Je parle des bulles IA, en effet. Cf ce trop long document ou bien sur la page wikipédia qui va bien.
Les bulles IA (symboliques, systèmes experts) ont été productives, ça n'est pas le problème. Ce sont plutôt les hivers qui les ont suivies qui ont été douloureux pour le domaine.
On attend le Marx du XXIème siècle, ou le Bourdieu, qui décrirait d'un côté la profonde inhumanité du travail imposé aux pauvres qui constituent les bases d'apprentissage, clic par clic, et de l'autre la profonde inhumanité des ingénieurs et scientifiques qui conçoivent les programmes d'apprentissage automatique qui remplacent (mal) les humains. Quelle situation ubuesque, quand on y pense.
L'effondrement des perfs des modèles est une possibilité : les perfs des systèmes IA basés sur du ML sont dictées par les données d'entraînement. Si les données changent, il faut réadapter les modèles, revoir les hypothèses, modifier l'architecture voire tout reprendre. Shit in, shit out … il y a tellement de choses qu'on ne comprend pas dans ce processus d'apprentissage massif par réseaux de neurones.
Sur le digital labor, c'est documenté par A Casilli par exemple. Quant aux chiffres, je ne sais pas.
Il faut bien avoir conscience qu'il y a une bulle actuelle de l'IA. La situation s'est déjà produite deux fois depuis les 60s et deux fois des gens sérieux ont déliré. Une bonne partie de la com' relève du pur bullshit marketing. Ça mousse, on touille, ça mousse. Tout le monde se caresse dans le sens du poil, c'est génial.
Le fond de l'histoire, c'est qu'on ne comprend toujours pas comment apprend un réseau de neurones profond. Et ça, ça me excite les gens.
Ça fait chaud au cœur de voir que sur DLFP, on râle fort contre ce techno-bullshit.
Pour bosser dans le domaine (data science etc) avec des entreprises lambda, je peux témoigner qu'on est loin des délires du Sommet IA. On est plutôt sur du nettoyage, de la mise en forme, de la visualisation et parfois quelques stats. Pour un Mistral, combien de millions de boites classiques ?
L'installation n'est pas triviale, mais ca tourne sans trop de maintenance depuis 3-4 ans. Quelques moments d'égarement, parfois, de la base de données mais ca se passe bien.
Revenons à l'installation : on centralise sur une machine qui fait office de serveur, avec muchsync qui synchronise le tout. Les mails sont récupérés avec offlineimap et … c'est tout. Notmuch, avec son client emacs, n'est qu'une interface de recherche dans la base d'emails.
[^] # Re: C'est trop buggé, je passe plus de temps à corriger qu'à coder :
Posté par Thomas (site web personnel) . En réponse au sondage Les IA génératives et le code. Évalué à 5 (+4/-0). Dernière modification le 25 mars 2025 à 11:00.
J'espère que nous sommes beaucoup à aimer développer, cependant.
# C'est trop buggé, je passe plus de temps à corriger qu'à coder :
Posté par Thomas (site web personnel) . En réponse au sondage Les IA génératives et le code. Évalué à 4 (+3/-0).
… et le plaisir de coder ?
… et le plaisir de concevoir ses programmes ?
… et le plaisir de l'artisanat ?
Dans ces débats, je trouve qu'on occulte beaucoup l'activité de création, que ce soit au sujet des programmes ou plus généralement du texte. Il y a un parallèle. Je me moque de lire de dépêches AFP au style lisse et purement informatif, mais j'aime lire un papier ou un roman avec du style : est-ce la meme chose pour la programmation ? Un code que j'écris et que je dois maintenir, j'essaie de le concevoir et de le tourner d'une façon qui facilite son évolution et sa maintenance. Il faudra me convaincre que la génération est le bon outil pour ce faire.
Quant au vibe coding qui pullule maintenant sur les LinkedIN, comment dire ?
# efficace
Posté par Thomas (site web personnel) . En réponse au lien The Technical Debt explained with a kitchen analogy.. Évalué à 1 (+0/-0).
Un article qui fait le taf. Merci
[^] # Re: Qu'en dit Donald Knuth ?
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 4 (+3/-0).
Je ne suis pas prof, mec.
Et je ne cherche pas à convaincre qui que ce soit.
Je parle de mon expérience, ca fait 10 ans que je bosse avec ces algos.
Possible que je me trompe.
Je travaille suffisamment avec les algorithmes de ML pour savoir que c'est trop opaque et très sensibles aux données d'entrées. Quand un programme fournit une prédiction ou un résultat, que l'utilisateur ou le client me demande "pourquoi telle prédiction" ou "pourquoi tel résultat" et que tu lui réponds "aucune idée, ca doit être dans les données" … bah j'ai l'air d'un con. Idem sur les sorties des LLM, bien entendu. Tout ca, c'est marrant, on rigole bien, ca fait des conférences rigolotes et des interventions devant des gens sérieux, mais au final, je trouve que le ML est à double tranchant - et hors de question que j'en fasse l'alpha et l'omega de l'informatique.
[^] # Re: Qu'en dit Donald Knuth ?
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+0/-0).
Oui.
Mais ce n'est pas le sujet.
Il y a foule d'attaques où changer des pixels de manière imperceptible à l'oeil (=le chat reste un chat) fait changer la catégorie predite. La classification par NN marche super bien mais reste totalement incompréhensible.
On fixe une graine (seed), on fixe l'ordre des données et le programme devient deterministe C'est un pré-requis nécessaire quand on veut comparer les perfs d'un algorithme d'apprentissage. Sinon on est en aveugle.
Je ne demande rien aux LLM. Ces programmes sont impressionnants, parfois utiles et souvent rigolos. Je ne vois pas le lien avec l'intelligence humaine, je ne suis pas compétent sur le sujet.
[^] # Re: Qu'en dit Donald Knuth ?
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+0/-0).
Beaucoup de choses sont plus stables qu'un humain.
Une chaise à trois pieds, par exemple.
Par contre, une sortie de LLM n'est pas stable. La sortie d'un réseau de neurones n'est pas stable, un pixel suffit à changer une classification. Les exemples pullulent. En informatique, on aime bien la stabilité et la reproductibilité, non ?
[^] # Re: Qu'en dit Donald Knuth ?
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+0/-0). Dernière modification le 02 mars 2025 à 22:56.
Ça marche pas mal, oui.
Mais pas tout le temps … et c'est pas forcément stable.
# Qu'en dit Donald Knuth ?
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 4 (+3/-0).
C'est vieux.
Vous l'avez probablement déjà lu 17x, dont 18x ici.
Voici un texte écrit par l'auteur de TAOCP sur ChatGPT version 2023
Le texte entier est ici
Conclusion du pape.
Je vous laisse traduire.
J'ai lu un avis de Linus du meme ordre, moins littéraire et plus direct : "90% de l'IA c'est du marketing, attendons 5 ans histoire de voir ce que ca donne".
[^] # Re: Pourquoi dire IA si on ne parle que des réseaux de neurones ?
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+1/-1).
Ils n'ont aucun humour.
Ils ne comprennent pas les règles des dames.
Ils ne savent pas reagir en dehors de leur contexte d'apprentissage.
Rappelons qu'il n'existe pas de définition de l'intelligence.
En fait, la discussion est un peu stérile car même les chercheurs ne comprennent pas bien ce qu'il se passe dans un LLM ou un NN. Exemple intéressant ici. La situation est tres confuse, et il y a une grosse part de psychologie dans cette histoire.
[^] # Re: IA = code + données
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 3 (+2/-0).
Oui, il faut tout le process pour reproduire. Et bien sur, les recettes magiques et trucs tordus qu'on fait subir aux données brutes.
[^] # Re: IA = code + données
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+0/-0).
Ok
En fait, je n'ai pas les idées claires sur la liberté d'un programme de ML. A priori, je dirais qu'on doit pouvoir tout reproduire localement, car l'intérêt (l'essence) du programme ML entraîné réside dans son … entraînement. S'il n'est pas reproductible, il n'est pas libre. Donc il faut tout le processus + les données.
Dans le cas du renforcement, je dirai pareil : il faut le processus total pour régénérer P, =P1. Mais ça se discute ? Disons que dans les deux cas, P1 + D (si ≠{}) sont nécessaires.
Donc il y a deux choses différentes :
- le programme entraîné, ~binaire
- le processus d'entraînement
On sera peut-être d'accord. Il faudrait repenser cette notion de logiciel libre dans le cas du ML, ça n'est probablement pas comparable.
Maintenant, on se heurte au problème de la boite noire : faire de la retro-ingénierie sur un NN c'est complexe, voire impossible. C'est peut-être aussi une limite - ou hors-sujet :)
[^] # Re: IA = code + données
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+0/-0).
Il s'est entraîné en jouant contre lui-même.
Le processus d'entrainement est un peu différent, c'est de l'apprentissage par renforcement. Reste que les humains ont conçu le processus.
[^] # Re: IA = code + données
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+0/-0).
AlphaZero a été entraîné.
[^] # Re: IA = code + données
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+0/-0).
Tres exactement mon avis.
C'est pour cette raison que les modeles fournis par (cocorico) Mistral ne sont pas vraiment ouverts. Il faut fournir l'ensemble : modele, procédure d'entrainement, procédure de validation, données. Sans ça, on ne peut pas reproduire.
[^] # Re: IA = code + données
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 1 (+0/-0).
On peut préciser des paramètres en dur lors de l'instanciation du modèle. Jette un coup d'oeil aux modeles présentés dans la bible sklearn par exemple.
Mais pour un modèle d'apprentissage automatique, ca n'est pas trop l'idée : il faut justement laisser le programme d'entrainement ajuster les parametres.
# IA = code + données
Posté par Thomas (site web personnel) . En réponse à la dépêche Une intelligence artificielle libre est-elle possible ?. Évalué à 6 (+5/-0).
L'apprentissage automatique, c'est simple en réalité. Un programme d'entraînement avec un modèle interne (neural nets, SVM, random forests etc) et des données. Il y a une obstination actuelle sur les neural nets car … ils fonctionnent bien !
Les données sont fournies au programme, qui adapte les poids / paramètres internes du modèle. À la fin, on a un modèle entraîné.
De mon point de vue très pragmatique et limité de data scientist, un modèle sera donc libre si le code du programme d'entraînement et du modèle est libre, et si les données d'entraînement le sont aussi. Le modèle entraîné seul ne suffit pas, et de loin car on comprend souvent mal comment l'information y est encodée.
[^] # Re: Capital
Posté par Thomas (site web personnel) . En réponse au journal LLM (encore), effondrement et travail humain. Évalué à 1 (+0/-0).
Je suis nul en Marx.
De loin et dans le brouillard, j'ai l'impression que ce qui se passe avec le travail déporté et relocalisé exciterait beaucoup Marx, en fait. Probablement une preuve que son analyse marche plutôt super bien … ?
[^] # Re: Bof
Posté par Thomas (site web personnel) . En réponse au journal Je suis perdu et je pensais m'être renseigné.... Évalué à 2 (+1/-0).
Je parle des bulles IA, en effet. Cf ce trop long document ou bien sur la page wikipédia qui va bien.
Les bulles IA (symboliques, systèmes experts) ont été productives, ça n'est pas le problème. Ce sont plutôt les hivers qui les ont suivies qui ont été douloureux pour le domaine.
# Capital
Posté par Thomas (site web personnel) . En réponse au journal LLM (encore), effondrement et travail humain. Évalué à 10 (+14/-0).
On attend le Marx du XXIème siècle, ou le Bourdieu, qui décrirait d'un côté la profonde inhumanité du travail imposé aux pauvres qui constituent les bases d'apprentissage, clic par clic, et de l'autre la profonde inhumanité des ingénieurs et scientifiques qui conçoivent les programmes d'apprentissage automatique qui remplacent (mal) les humains. Quelle situation ubuesque, quand on y pense.
L'effondrement des perfs des modèles est une possibilité : les perfs des systèmes IA basés sur du ML sont dictées par les données d'entraînement. Si les données changent, il faut réadapter les modèles, revoir les hypothèses, modifier l'architecture voire tout reprendre. Shit in, shit out … il y a tellement de choses qu'on ne comprend pas dans ce processus d'apprentissage massif par réseaux de neurones.
Sur le digital labor, c'est documenté par A Casilli par exemple. Quant aux chiffres, je ne sais pas.
# Bof
Posté par Thomas (site web personnel) . En réponse au journal Je suis perdu et je pensais m'être renseigné.... Évalué à 5 (+4/-0).
Il faut bien avoir conscience qu'il y a une bulle actuelle de l'IA. La situation s'est déjà produite deux fois depuis les 60s et deux fois des gens sérieux ont déliré. Une bonne partie de la com' relève du pur bullshit marketing. Ça mousse, on touille, ça mousse. Tout le monde se caresse dans le sens du poil, c'est génial.
Le fond de l'histoire, c'est qu'on ne comprend toujours pas comment apprend un réseau de neurones profond. Et ça, ça me excite les gens.
Un lien parmi d'autres : LLM et modèles
# vieux raleurs
Posté par Thomas (site web personnel) . En réponse au journal Sommet pour l’action sur l'IA, réaction à chaud. Évalué à 10 (+14/-0).
Ça fait chaud au cœur de voir que sur DLFP, on râle fort contre ce techno-bullshit.
Pour bosser dans le domaine (data science etc) avec des entreprises lambda, je peux témoigner qu'on est loin des délires du Sommet IA. On est plutôt sur du nettoyage, de la mise en forme, de la visualisation et parfois quelques stats. Pour un Mistral, combien de millions de boites classiques ?
[^] # Re: IA
Posté par Thomas (site web personnel) . En réponse au journal Quelques notes de lecture. Évalué à 1.
idem
ca se lit très bien
# Intéressant.
Posté par Thomas (site web personnel) . En réponse au lien AI and the end of programming. Évalué à 3.
Vraiment.
Merci
[^] # Re: Dune: réédition chez Robert Laffont
Posté par Thomas (site web personnel) . En réponse au journal Des livres pour la fin de l’année. Évalué à 1.
Le style est clair.
Certains mots ne le sont pas, il a fallu chercher dans le dictionnaire, surtout pour les Hérétiques.
A part ça, c'est quasiment transparent … mes 3 ans de postdoc en Angleterre ont du aider :)
Ca change de Pratchett, que je trouve parfois difficile.
# notmuch
Posté par Thomas (site web personnel) . En réponse au journal Vim ou Emacs pour le courriel ?. Évalué à 4.
Ca marche.
L'installation n'est pas triviale, mais ca tourne sans trop de maintenance depuis 3-4 ans. Quelques moments d'égarement, parfois, de la base de données mais ca se passe bien.
Revenons à l'installation : on centralise sur une machine qui fait office de serveur, avec muchsync qui synchronise le tout. Les mails sont récupérés avec offlineimap et … c'est tout. Notmuch, avec son client emacs, n'est qu'une interface de recherche dans la base d'emails.
Franchement, ca se fait.
Sois fort.