Journal LLM (encore), effondrement et travail humain

16
15
fév.
2025

Cher Nal,

Oui encore un fil sur les LLM mais sur deux aspects qui n'ont pas été, me semble-t-il, abordés et liés :

  • l'effondrement des modèles par alimentation par des données provenant d'autres modèles
  • les besoins massifs de travailleurs pour servir les grands de l'IA.

Si dans les pays occidentaux, l'inquiétude concerne l'emploi, un documentaire sur France 2 sur Les sacrifiés de l'IA (pas vu) témoigne de l'ampleur et de l'exploitation de ces salariés. Je n'ai pas vu mais lu une interview du réal sur France Culture.
Seulement il est mentionné une étude de l'OIT (Organisation internationale du travail) et de la Banque mondiale qui révélerait que cette industrie numérique emploierait entre 150 à 430 millions de personnes dans le monde. Ce qui en ferait, même en fourchette basse, la première industrie de ce point de vue, et de loin.
Je n'ai pas trouvé ce document mais une page de l'OIT estimant à des dizaines de millions de personnes.
Si tant est que des prédictions dans cette société et ce domaine soient significatives, toujours selon ce docu, Google estimerait ainsi que les besoins monteraient à 1 milliards de personnes d'ici une décennie.

Quoiqu'il en soit Les conditions de travail sont éprouvantes, aussi intenses que répétitives, 10h/j et 6 ou 7/7j.
Le docu semble évoquer également les filtreurs des plateformes dont de nombreux sont atteints de stress post-traumatiques en étant soumis à des contenus violents.

Les grands de l'IA ne tiennent pas à parler de cet aspect (sauf Google ?) et des NDA sont demandées et parfois même des menaces pour ces salariés.

L'autre aspect est le phénomène d'effondrement lorsqu'un modèle est alimenté par les données générées par d'autres modèles.
Le phénomène était prévu, connu et observé. Mais certains pensent qu'il serait catastrophique pour les modèles actuels car leur correction serait impossible ou difficile et coûteuse. D'autres pensent qu'avec suffisamment de données réelles cela n'arrivera pas.
De ce que je retire de ma seule lecture sur le sujet, l'art. Wikipedia, (sur lequel les aspects mathématiques m'échappent), c'est, notamment, que ces données artificielles auraient notamment une variance en forte baisse.

Ainsi donc, on exploite des millions de gens pour raffiner et actualiser les corpus.
A la vitesse où le domaine évolue, si ce problème d'effondrement est résolu, ces gens serait lourdé rapidement et massivement.

Pour le moment, on abrutit des gens pour rendre des LLM plus « intelligents ». L'inanité de cette société dégénérée.

Liens :

Nal, moules, auriez-vous des opinions et surtout des précisions ?

  • # Capital

    Posté par  (site web personnel) . Évalué à 10 (+14/-0).

    On attend le Marx du XXIème siècle, ou le Bourdieu, qui décrirait d'un côté la profonde inhumanité du travail imposé aux pauvres qui constituent les bases d'apprentissage, clic par clic, et de l'autre la profonde inhumanité des ingénieurs et scientifiques qui conçoivent les programmes d'apprentissage automatique qui remplacent (mal) les humains. Quelle situation ubuesque, quand on y pense.

    L'effondrement des perfs des modèles est une possibilité : les perfs des systèmes IA basés sur du ML sont dictées par les données d'entraînement. Si les données changent, il faut réadapter les modèles, revoir les hypothèses, modifier l'architecture voire tout reprendre. Shit in, shit out … il y a tellement de choses qu'on ne comprend pas dans ce processus d'apprentissage massif par réseaux de neurones.

    Sur le digital labor, c'est documenté par A Casilli par exemple. Quant aux chiffres, je ne sais pas.

    • [^] # Re: Capital

      Posté par  . Évalué à 10 (+12/-0).

      Le Marx du XIXème, s'il n'était pas madame Irma, avait montré le fonctionnement du capitalisme. En ce sens, le capitalisme étant toujours l'actualité, ses idées également.
      C'est en se fondant sur elles que d'autres ont pu analyser les changements opérés depuis, par exemple l'impérialisme, sa phase sénescente.

      Merci pour cet auteur cité.

    • [^] # Re: Capital

      Posté par  . Évalué à 7 (+6/-0).

      Pas besoin d'un Marx du XXIième siècle : ce que tu veux c'est une note de bas de page supplémentaire dans le chapitre concernant la machinerie et la grande industrie du livre 1 du Capital.

      Parce qu'on gros la réalité c'est que Marx a déjà posé la théorie du fonctionnement. Les ajouts "descriptif" de notre époque peuvent assez aisément s'insérer dans les bases qu'il a posé.

      Très honnêtement, et sans vouloir être méchant, ce qu'il faudrait c'est surtout que plus de gens lise Marx vraiment avant de dire qu'il faut un Marx de notre temps.

      Pour le digital labor, je me souviens avoir trouvé la théorie bancal. De souvenir, Casilli a balayé le concept de rente. Il considérait qu'il y avait de l'exploitation et à confondu ça avec le fait qu'il y ait du travail partout. Je crois me souvenir qu'il soutenait le fait qu'un utilisateur d'un service gafam avait un taux d'exploitation infini ; Quand on en arrive là je considère qu'il y a une erreur dans la théorie.

      (Perso, je suis plus de l'interprétation qu'il n'y plus de valeur créé du tout, mais on rentre dans des discussions théorique à n'en plus finir)

      • [^] # Re: Capital

        Posté par  (site web personnel) . Évalué à 1 (+0/-0).

        Je suis nul en Marx.

        De loin et dans le brouillard, j'ai l'impression que ce qui se passe avec le travail déporté et relocalisé exciterait beaucoup Marx, en fait. Probablement une preuve que son analyse marche plutôt super bien … ?

  • # Commentaire supprimé

    Posté par  . Évalué à 10 (+15/-0).

    Ce commentaire a été supprimé par l’équipe de modération.

  • # Marre

    Posté par  . Évalué à 10 (+22/-0).

    J'en ai marre de l'IA. Au travail, aux infos, sur LinuxFR, ça ne parle plus que de cela.
    Pitié, vivement que cette mode passe.

    • [^] # Re: Marre

      Posté par  (Mastodon) . Évalué à 10 (+13/-0).

      Pitié, vivement que cette mode passe.

      Il va falloir un certain temps avant que ça ne passe… Aujourd'hui l'IA est vue par les daycideurs pressays comme un moyen formidable de diminuer la masse salariale. Ils vont s'y accrocher tant qu'ils peuvent (avec tous les biais possibles de ne pas reconnaître facilement leur erreur).

      Sans compter que potentiellement… bin… ils auront pas tout à fait tort.

      En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

      • [^] # Re: Marre

        Posté par  . Évalué à 10 (+9/-0).

        Quand le modèle de coût commencera à peser sévèrement, ils y reviendront, comme pour le cloud.

        On a ici affaire à une stratégie commerciale identique à celle de Netflix, AWS ou Uber Eat à leurs débuts. Créer le besoin massivement et s’imposer partout à l’aide de tarifs très faibles, quitte à perdre de l’argent pendant des années. Ensuite, une fois la société accro, on monte les tarifs tous les ans. Au bout d’un moment, quand les gens/entreprise en ont marre de se faire traire, une petite machine arrière s’opère, même si évidemment seulement partiellement.

        • [^] # Re: Marre

          Posté par  . Évalué à 4 (+3/-0).

          Euh tu peux me montrer comment AWS a augmenté ses tarifs tous les ans ?

          • [^] # Re: Marre

            Posté par  . Évalué à 4 (+3/-0). Dernière modification le 16 février 2025 à 21:04.

            Excuse, j’ai fait une généralité sans vérifier. Netflix et Uber eat, c’est par contre le cas.

            Dans le cas d’AWS, c’est plutôt que certaines entreprises avaient sous estimé les coûts récurrents engendrés.

          • [^] # Re: Marre

            Posté par  . Évalué à 4 (+3/-0).

            Non. On peut pas. La page de tarification est tellement longue et compliquée que ça doit être un vrai métier de s'y retrouver.

            Par contre ce que je peux dire c'est que c'est le business de ma boîte de récupérer les clients des gafam qui en ont marre de trop payer.

            Alors je ne sais pas si c'est vrai. Mais en tout les cas c'est ce qu'ils disent être la raison principale, la seconde étant d'avoir des professionnels de la prod.

            Au début c'était pas cher. Mais avec le temps les factures augmentent. Ce qui est logique quand tu payes à la consommation. Chez nous le tarif est fixe et nos clients aiment ça.

            • [^] # Re: Marre

              Posté par  . Évalué à 5 (+3/-0). Dernière modification le 22 février 2025 à 00:13.

              La page de tarification est tellement longue et compliquée que ça doit être un vrai métier de s'y retrouver.

              C'est très exactement ce qui m'a empêché de passer sur AWS. Impossible de savori ce que j'allais payer. Et depuis j'ai 2 clients qui ont fait le chemin inverse : de OVH vers AWS puis AWS vers OVH parce que les coûts avaient explosé de manière incontrôlée. Donc je confirme, il te faut un spécialiste pour calculer et maîtriser tes coûts AWS.

      • [^] # Re: Marre

        Posté par  . Évalué à 4 (+2/-0).

        Sans compter que potentiellement… bin… ils auront pas tout à fait tort.

        Malheureusement oui car

        1/ dans certains cas, cela fonctionne
        2/ si ça fonctionne pas, le boulot déplacé d'un travailleur "couteux" à un travailleur dans un pays sans protection sociale

      • [^] # Re: Marre

        Posté par  . Évalué à 9 (+8/-0).

        Les daycideurs pressays se remplacent très bien par l'IA.

      • [^] # Re: Marre

        Posté par  . Évalué à 10 (+8/-0). Dernière modification le 17 février 2025 à 16:31.

        En pratique, les IA étant assez proche de bullshit generator, les emplois les plus menacé sont précisément ceux des daycideurs pressays. Il y a rien de plus facile pour un LLM que de pondre un power point décrivant la nouvelle stratégie du groupe. Et vu leur salaire, c'est loin d'être une économie négligeable. Par contre pour nettoyer correctement des chiottes ou remplacer la courroie de distribution du SUV, c'est beaucoup moins évident d'arriver à le faire faire par une IA.

        (PS : zut blague déjà faite. Je vais m'auto-remplacer par une IA de ce pas)

        Faut pas gonfler Gérard Lambert quand il répare sa mobylette.

    • [^] # Re: Marre

      Posté par  (Mastodon) . Évalué à 10 (+11/-0). Dernière modification le 16 février 2025 à 10:14.

      Au contraire, j'en veux encore. Je suis en train, grâce à linuxfr, de me constituer une bonne quantité d'arguments et de justifications pour construire une présentation à destination de décideurs pressés sur le sujet de l'intelligence artificielle. Parce que si on veut que la mode passe rapidement, il faut assécher les revenus, en particulier les milliards d'argent public qui ont été annoncés il y a peu. Et comme pour les NFT, s'il n'y a pas d'argent à la base, ça s'arrêtera tout seul, parce que ça ne répond à aucun besoin et/ou que ça répond très très mal au besoin.

      • [^] # Re: Marre

        Posté par  . Évalué à 9 (+6/-0).

        C'est pas gagné, j'ai de la famille qui travaille dans le cadre de l'accompagnement de personne dans le public en France (je reste vague), et apparemment on a déjà vendu de l'IA dans ce genre de secteur qui n'a a priori rien à voir avec la technique. Il s'agirait faire pondre des projets d'accompagnements/suivi/vie par des LLMs, si j'ai bien compris.

        Dans le cadre actuel ou on veut un max d'efficacité dans le service public et ou les dirigeants font n'importe quoi avec les finances, et les moyens contraints, ce genre de promesses doit faire frissonner les oreilles de certains.

        • [^] # Re: Marre

          Posté par  . Évalué à 5 (+2/-0).

          Il s'agirait faire pondre des projets d'accompagnements/suivi/vie par des LLMs, si j'ai bien compris.

          J'espère que tu as mal compris, et que c'est un outils utilisé pour traduire le jargon technique en texte compréhensible par un néophyte, car utiliser un truc qui va pondre du générique pour des cas spécialisée, c'est pas une riche idée.

          Il ne faut pas décorner les boeufs avant d'avoir semé le vent

        • [^] # Re: Marre

          Posté par  . Évalué à 1 (+0/-0).

          J'en connais qui vont encore plus loin. Ils vendent des formations fabriquées avec des llm … Et ils sont caliopi et tout hein. Et le patron vois pas le PB. 'on vend plus '…

      • [^] # Re: Marre

        Posté par  . Évalué à -6 (+3/-10).

        LOL

        Bref, le gars qui a déjà décidé de la conclusion et qui cherche des arguments pour la justifier.

        Rappelle moi de ne jamais t'engager pour faire une analyse quelle qu'elle soit

        • [^] # Re: Marre

          Posté par  (Mastodon) . Évalué à 4 (+2/-1).

          Tu inverses : les arguments m'amènent à la conclusion. J'ai déjà vu d'autres arguments en faveur de l'IA qui amènent à d'autres conclusions mais ils m'ont paru largement moins convaincant. Peut-être parce qu'ils ne reposaient pas sur des faits mais sur des suppositions absolument non-fondées (généralement, ça se résume à «l'IA va nous sauver» ou «l'IA va faire ça à notre place» sans aucune espèce de preuve sinon la méthode coué).

          Et si tu préfères que l'argent public finance des trucs qui ne servent à rien, ce n'est pas mon cas. Donc, fais ta propre analyse si tu veux, et partage là pour qu'on voit la différence. Tiens, voici une conférence de Xavier Leroy, tu sais, un obscur informaticien pas très connu. Regarde ce qu'il dit de l'IA et tous les exemples qu'il cite. Réfute tout ça et après, on pourra rediscuter sérieusement.

          • [^] # Re: Marre

            Posté par  . Évalué à 1 (+3/-3).

            Dire que l'IA ne sert à rien montre simplement une chose : tu n'y connais rien et a des préjugés monstrueux

            Exemple de base : j'utilise Claude 3.5 à peu près tous les jours pour générer du code. Plein de mes collègues font de même, on utilise des modèles pour générer des sommaires de problèmes, etc. et cela ce n'est que mon groupe à moi avec nos cas d'utilisation limités, beaucoup d'autres les utilisent pour de l'analyse de texte aussi. Il y a maintenant de plus en plus de boîtes qui créent des bots pour la recherche de vulnérabilités (XBow par exemple) et ce qu'ils peuvent faire est tout simplement bluffant.

            Plein de boîtes, y compris hors du monde tech, l'utilisent pour tout ce qui est support, il prend de plus en plus de place dans la génération d'images et graphismes, et il y a plein d'autres usages.

            • [^] # Re: Marre

              Posté par  (site web personnel) . Évalué à 4 (+2/-1).

              Exemple de base : j'utilise Claude 3.5 à peu près tous les jours pour générer du code. Plein de mes collègues font de même, on utilise des modèles pour générer des sommaires de problèmes, etc. et cela ce n'est que mon groupe à moi avec nos cas d'utilisation limités, beaucoup d'autres les utilisent pour de l'analyse de texte aussi.

              Question : vous avez un accord avec Anthropic au sein de la boîte, un accord de la hiérarchie pour s'en servir dans ces conditions ou pas ?

              Car je constate en effet beaucoup de personnes se servent de ce genre d'outils pour le code comme autre choses mais sans se soucier de la question de la confidentialité (échanges sauvegardées par l'éditeur, potentiellement entrainement sur ces données qui peuvent fuiter plus tard), des droits d'auteurs / propriété intellectuelle qui sont encore incertains, etc.

              Alors quand la boîte est d'accord et que les conditions d'utilisations sont favorables tant mieux, mais pour ceux qui s'en servent sans réfléchir aux conséquences potentielles je trouve cela problématique.

              • [^] # Re: Marre

                Posté par  . Évalué à 1 (+0/-0).

                Ben pour nous c'est simple, on l'utilise à travers AWS Bedrock où il est hosté, Anthropic est un partenaire, et Bedrock garantit cette confidentialité pour tous les clients.

                Cf. https://docs.aws.amazon.com/bedrock/latest/userguide/data-protection.html et https://aws.amazon.com/blogs/alps/security_bedrock/

                "Amazon Bedrock doesn’t store or log your prompts and completions. Amazon Bedrock doesn’t use your prompts and completions to train any models and doesn’t distribute them to third parties. In addition, your data is encrypted in transit and at rest. "

                • [^] # Re: Marre

                  Posté par  (site web personnel) . Évalué à 3 (+0/-0).

                  Ok, merci pour l'info.

                  Faudrait que je regarde les autres services pour voir en détail ce qu'ils garantissent ou pas à ce sujet.

              • [^] # Re: Marre

                Posté par  . Évalué à 4 (+1/-0).

                Alors quand la boîte est d'accord et que les conditions d'utilisations sont favorables tant mieux, mais pour ceux qui s'en servent sans réfléchir aux conséquences potentielles je trouve cela problématique.

                Si d'un côté du as des gros tas de $$ économisés en salaire de programmeur, et de l'autre côté tu as peut-être des risques virtuels pas très bien définis et au final peu inquiétants, il est probable que l'analyse soit quand même assez rapide.

                Imagine que tu balances un truc confidentiel dans le prompt (un cahier des charges, ou un bout de code "maison"), et même que ce truc rentre dans la base d'apprentissage pour la version suivante de l'AI, quelles sont les chances pour que quelqu'un s'en aperçoive et qu'il puisse se passer quelque chose de réellement nuisible? Il faudrait que le modèle soit suparamétré (qu'il recrache des bouts de code verbatim), que ce bout de code soit sensible et spécifique (puisque le le droit d'auteur ne couvre pas le code trivial), et qu'il tombe dans les mains d'une personne qui puisse identifier son origine et prévenir l'ayant droit, qui à son tour doit trouver les raisons de poursuivre en justice… Tout ça semble bien vague.

                • [^] # Re: Marre

                  Posté par  (site web personnel) . Évalué à 2 (+0/-1).

                  Si d'un côté du as des gros tas de $$ économisés en salaire de programmeur,

                  Note, il n'y a pas que les programmeurs qui s'en servent et l'impact potentiel varie de poste en poste.

                  et de l'autre côté tu as peut-être des risques virtuels pas très bien définis et au final peu inquiétants, il est probable que l'analyse soit quand même assez rapide.

                  Tu juges que c'est peu inquiétant mais il y a de vraies questions derrière, surtout étant donné le capital investi dedans et les pratiques passées de la plupart de ces entreprises.

                  Comme Amazon qui a analysé les ventes de son marketplace pour vendre sous son nom certains de ces produits au détriment des vendeurs, des fuites divers et variés de données personnelles notamment via des LLMs. Et avec la politique actuelle des USA et de la Chine qui hébergent de nombreux services de ce genre il y a de quoi se méfier de ce qui peut être fait de certaines de ces données que ce soit en terme de vol de propriété intellectuelle, analyse de données personnelles, etc.

                  Tu peux dire que tu t'en fous, tu peux considérer que par exemple certains patrons s'en foutent et donne libre accès à leurs employés sans y réfléchir, très bien, mais ce n'est pas le cas de tout le monde et trouver un intérêt à ces outils ne doit pas être une justification à accepter de le faire à n'importe quel prix et sana analyse aussi des impacts négatifs.

                  De la même façon que de nombreux chercheurs en IA travaillent ou essayent en tout cas de sensibiliser le monde sur certains de ces risques que ce soit avec la techno actuelle comme à venir. On ne doit pas mettre ça sous le tapis car osef ça rend service à pas cher. Ce sont des questions qu'on a avec d'autres technologies, l'IA n'y fait pas exception.

                  C'est manquer de recul et d'esprit critique de ne voir que les biens faits mais pas les méfaits ou risques potentiels. Alors oui, il ne faut pas faire l'extrême inverse et ne pas voir le positif aussi (et je peux voir ces effets positifs, je ne remets pas cela en cause, bien au contraire).

                  D'ailleurs j'en ai parlé avec mon client par exemple et il n'est en effet pas très chaud par exemple qu'on se serve de ces outils s'il n'y a pas un minimum de garanti concernant la confidentialité des données envoyées. La solution pourrait être de faire un système en local aussi mais ça doit s'évaluer et cela bloque certains usages aussi car cela reste gourmand en ressources et tous les modèles ne sont pas accessibles ainsi (loin de là même).

                  Imagine que tu balances un truc confidentiel dans le prompt (un cahier des charges, ou un bout de code "maison"), et même que ce truc rentre dans la base d'apprentissage pour la version suivante de l'AI, quelles sont les chances pour que quelqu'un s'en aperçoive et qu'il puisse se passer quelque chose de réellement nuisible?

                  Au hasard tu travailles dans un secteur confidentiel (défense, énergie, etc.) tu demandes à la machine de te pondre des documents ou afférents, si toute l'industrie balance ses méthodes, son code, ses documents internes à ce genre d'outils et qu'ils gardent ou s'entrainent dessus bah cela ne sera pas très difficile avec des prompts bien fichus de récupérer ces informations confidentielles et stratégiques depuis l'extérieur car la quantité de données du domaine sont limités à quelques acteurs.

                  Ou tu es journaliste et tu travailles avec ces données et le nom de tes sources sont dans les échanges avec les serveurs lors de ta préparation des articles et qui pourraient être rebalancées si jamais la source est conservée et est associée à ces articles, nom qui pourrait ressortir si quelqu'un demande un résumé ou une traduction de l'article. Ce sont des problématiques réels concernant ces outils.

                  Avec les états comme la Chine, la Russie ou les USA ce sont des questions sérieuses à se poser. De la même façon qu'ils n'hésitent pas à exploiter les données collectées par les entreprises dans leur objectif de renseignement politique comme économique.

                  De la même façon que dans de nombreux dépôts internes comme publics il y a ou il y aura des couples login / mots de passe enregistrés par erreurs et qui pourraient par hasard se retrouver dans la nature aussi. Je ne doute pas que les acteurs malveillants vont travailler ce genre de questions. De même pour certaines données personnelles qui pouvaient entrer en conflit avec le droit à l'oubli européen.

                  Après la problématique du droit d'auteur est un vrai merdier mais on voit que c'est un sujet complexe autour de ces technos et que pour l'instant on ne sait pas trop comment ça va se dégoupiller. Et il n'y a pas que le code là dedans qui est concerné mais ça pourrait avoir un impact si jamais la justice exige que les LLMs doivent s'assurer de ne jamais recracher tout ou partie d'un code de ses données d'entrainement (peut être que ça n'arrivera pas, mais on ne sait pas).

                  Et reste également la question de la fiabilité, si demain les grands acteurs ont une panne (et l'histoire récente a montré que Google, Microsoft, etc. pouvaient avoir des pannes sérieuses), comment tu travailles ?

                  Alors peut être que des solutions seront trouvés à tout cela et que tout ira bien mais il y a clairement du travail sur ces questions et des incertitudes aussi. Et que de foncer tête baisser sans y réfléchir un minimum ne me semble pas spécialement être malin.

                  Après il y a outre la question de l'alignement de l'IA, l'alignement des développeurs de ces IA. Imaginer que demain pour des questions de rentabilités ils augmentent régulièrement les tarifs ou introduisent des publicités très ciblées dans les réponses n'est pas un scénario de SF étant donné le modèle économiques de la plupart des acteurs du secteurs aujourd'hui.

                  D'où l'importance de la transparence, de la possibilité de tourner ces modèles en local, et si possible de ne pas avoir que les USA ou la Chine qui développent ces solutions. Et qu'on doit aussi se poser la question des risques concernant ces outils de la même façon qu'il faut se poser cette question pour d'autres technos par ailleurs, sans renier leur intérêt par ailleurs.

              • [^] # Re: Marre

                Posté par  . Évalué à 4 (+1/-0).

                Car je constate en effet beaucoup de personnes se servent de ce genre d'outils pour le code comme autre choses mais sans se soucier de la question de la confidentialité (échanges sauvegardées par l'éditeur, potentiellement entrainement sur ces données qui peuvent fuiter plus tard), des droits d'auteurs / propriété intellectuelle qui sont encore incertains, etc.

                La problématique de confidentialité me semble assez proche d’une pratique antérieur à l’IA : le crowd sourcing. J’entends par-là le recours à des sites tel que stackoverflow.com : il devrait être évident qu’exposer un problème aux yeux de milliers voir millions de ses pairs implique 1. Un effort de synthèse pour isoler le point précis sur lequel on attend que la « magie » opère, avec les éléments contextuels éventuels les plus signifiants, en ôtant les secondaires et suivants. 2. Une réflexion sur les informations potentiellement sensibles qu’on expose dans l’exercice, directes, mais aussi déductibles par interpolation.

                Je trouve d’ailleurs particulièrement édifiant de constater que cette pratique, et notamment le point 1. aboutit parfois à ce que la solution nous apparaisse soudain avant même d’avoir publier quoi que ce soit. Alors que quelques temps auparavant, on admettait être incapable de sortir seul de cette impasse pour laquelle on s’était résolu à demander de l’aide.

                La question qui me vient est donc : est-ce que faire appelle à une IA n’implique pas avec une évidence tout aussi clair qu’un travail et des précautions très semblables s’impose alors à nous ? En d’autres terme : s’en remettre à une IA génératrice/assistante est-il par essence fondamentalement différent que de s’en remettre à une foule nombreuse, protéiforme et surtout indéterminée ?

                Ce que j’ai constaté sur stackoverflow.com et d’autres sites de la même veine, dits de “Q&A”, c’est qu’il est apparu de manière absolument clair qu’il a fallu imposer une fermeté absolue et se positionner radicalement contre tout apport direct d’une IA dans la génération du contenu produit par l’approche crowdsourcing (et crowdmoderated, crowdadministrated, etc… “crowdpowered” me semble pas mal pour l’accroche commerciale ^^).

                En effet, à des questions posées par des humains, d’autres humains soumettait la question sans autre forme de procès à une IA (ChatGPT, autant appeler un ChatGPT un ChatGPT !), et reportaient de manière toute aussi passive la réponse de l’IA comme leur réponse à la question originale. Sans spécialement tenter de cacher la source de ce qu’ils apportaient : « J’ai posé ta question à ChatGPT, voilà ce qu’il m’a répondu. ». Possiblement augmenté d’un commentaire sur la réponse potentiellement pertinent, mais souvent même pas.

                Je ne suis pas du tout étonné que cela se soit passé ainsi : bonne volonté, envie d’aider, considérer que poser une question à ChatGPT, si en plus c’est sa version payante, c’est une faculté ayant une valeur qu’on peut vouloir partager, je ne vois aucune raison de condamner ces “ChatGPT evangelists”. C’est vrai dans un sens. L’humain ayant posté la question à l’origine n’a peut-être pas pensé qu’il pouvait demander à ChatGPT, peut-être qu’il y a pensé et qu’il n’a pas osé franchir le cap. Peut-être il n’a pas les moyens de s’offrir la version payante.

                Mais je suis en même temps soulagé de voir que « la foule » n’a pas hésité à affirmer, sinon sa supériorité, la valeur réelle qu’elle a, et qu’elle constitue. J’en arrive au sujet de l’IA générative, la « foule » n’est rien de moins que la garante de l’apport d’intelligence réelle (ie: humaine), Cette intelligence fondamentalement indispensable à une exploitation productive de l’intelligence dite faible (ie: ChatGPT et consors), qui sans cela, finirait par s’alimenter toujours davantage de ce qu’elle peut produire elle-même, et finirait donc, mécaniquement, mathématiquement, à une stricte nullité intellectuelle.

                Bon, j’ai sûrement encore pondu un commentaire tarabiscoté, ampoulé et indigeste, peut-être, c’était pas le but et j’ai fait de mon mieux pour essayer de dire ce que me semble important à dire (serait-ce pour être contredit). Alors je finirai en signalant cette locution qui me semble être attribué à Jeff Bezos, à mon avis à la pointe de la réflexion sur ce qu’on peut àma appeler le « micro-tâcheronnage » :

                “The human in the loop”

                C’est potentiellement très inquiétant : the human !? Ne pourrait-ce qu’être un seul individu ? The loop ?! Quelle taille fait-elle ? Quand l’humain et la boucle entre en conflit, quelle entité asservie l’autre ?

                Je pense pour ma part que ça ne peut être que l’humain qui conserve un avantage inatteignable pour la boucle, pour l’IA, quelle que puisse être sa puissance de calcul. Toute IA cesse par essence d’exister si l’humain disparaît.

                Cette “hype” de l’IA, si elle se base sur des progrès technologique, algorithmique, mathématique indéniables, elle n’est qu’une énième répétition de ce que la plus vieille religion monothéiste qui a persisté jusqu’à nous a explicité voilà un certain nombre de millénaires, disons vraisemblablement entre deux et trois millénaires, par le “golem”.

                L’Histoire, en particulier celle du progrès technique, ne se répète pas, elle est davantage qu’une simple boucle, elle est spirale.

                • [^] # Re: Marre

                  Posté par  (site web personnel) . Évalué à 5 (+2/-0).

                  La problématique de confidentialité me semble assez proche d’une pratique antérieur à l’IA : le crowd sourcing. J’entends par-là le recours à des sites tel que stackoverflow.com : il devrait être évident qu’exposer un problème aux yeux de milliers voir millions de ses pairs implique 1. Un effort de synthèse pour isoler le point précis sur lequel on attend que la « magie » opère, avec les éléments contextuels éventuels les plus signifiants, en ôtant les secondaires et suivants. 2. Une réflexion sur les informations potentiellement sensibles qu’on expose dans l’exercice, directes, mais aussi déductibles par interpolation.

                  De loin on pourrait le croire, mais de près il y a des différences fondamentaux. Je vais expliciter ce que j'entends par là.

                  Avec un site tel que SO, certes tu peux poser des questions en lien avec ton travail mais :

                  • Si tu n'es pas un manche, en théorie tu fais ça de temps en temps sur une faible partie du code sur lequel tu travailles. Par exemple en 10 ans de carrière, j'ai du le faire 2-3 fois seulement.
                  • De même éventuellement pour de la doc ou des démarches admins, etc.
                  • La grande majorité du temps tu lis ce qui a été produit par d'autre, mais personne ne sait réellement qui a lu quoi et peut en déduire quoique ce soit. Google est peut être l'acteur qui en sait le plus et honnêtement vu ce qu'on balance à un moteur de recherches je doute que Google ait une vue complète d'un projet entier ainsi.

                  Le soucis de confidentialité existe mais est relativement faible par ce genre d'usage.

                  Ce qui est le plus comparable en terme de confidentialité est au niveau du Cloud. Tu héberges ton code, ta documentation, toutes les données de la boîte etc. chez Google par exemple. Là Google a une vue complète sur ce qui se passe. Ce qui peut selon le domaine d'activité et le contrat / confiance que tu as avec le fournisseur peut être un soucis.

                  Mais l'IA ici va même potentiellement plus loin par l'apprentissage qu'il peut faire sur ses interactions. Tous ne le font pas, mais il n'y a pas de raison de croire qu'aucun ne le fait ou ne le fera.

                  Tu as une IA pour coder, tu vas le prompter pour savoir ce que tu vas faire, ton code sera envoyé à l'IA pour effectuer les changements nécessaires. Si tu l'utilises sur un temps long pour beaucoup de fonctionnalités, à la fin l'IA aura une vue d'ensemble du projet, doc + code. Comme un fournisseur de Cloud expliqué plus haut.

                  Mais le fournisseur de cloud ne permet pas en théorie à une personne extérieure d'extraire des données d'un client quelconque. Si EDF héberge toutes ses données chez Google, en tant que non employé EDF je n'ai aucun moyen d'y accéder sauf potentiellement si je trouve une faille béante l'autorisant.

                  Si l'IA apprend du code + doc privé, la situation est tout autre. Par accident ou avec un prompt bien ciblé par une personne extérieure, des informations privées peuvent fuiter. Alors pour l'immense majorité du code c'est probablement insignifiant, mais si tu travailles dans un secteur critique avec peu de concurrents, le risque augmente car il y a plus de chance que l'IA recrache tout ou partie de ce qu'il a analysé chez un autre.

                  De même que des couples logins / mdp de certains services courants qui pourraient ressortir aussi si jamais les personnes n'ont pas protégées ces données (et comme certains les mettent dans leur dépôt git, c'est déjà arrivé et arrivera encore).

                  Bref, cela pose des défis nouveaux dans certains cas et il faut en avoir conscience. Il faut donc être attentif à l'IA et à son fournisseur :

                  • Possibilité d'usage en local pur ?
                  • Fournisseur qui garanti qu'il n'analyse pas les prompts ni fait d'apprentissage dessus + code / doc envoyés ?
                  • [^] # Re: Marre

                    Posté par  . Évalué à 3 (+0/-0). Dernière modification le 24 février 2025 à 23:19.

                    Possibilité d'usage en local pur ?
                    Fournisseur qui garanti qu'il n'analyse pas les prompts ni fait d'apprentissage dessus + code / doc envoyés ?

                    Ce qui fait la force de l’IA c’est précisément la masse des données disponibles, ainsi qu leur « exhaustivité sémantique ». Je ne sais pas comment le dire mais si on imagine développer une IA capable de faire la différence entre une image d’un mammifère et une image d’une insecte, avoir des péta-octets d’images uniquement de raton-laveur, de cochon, de cigale et de fournies ce sera moins efficace qu’un jeu de données beaucoup moins volumineux mais bien plus varié. Les données doivent être hétérogènes dans ce qu’elles sont, autant que le plus parfaitement homogène possible sur le « comment » elles sont. Et ceci, parce que précisément, cette notion fondamentale pour nous humain, de distinguer le fond et la forme (même si on peut se tromper parfois), est hors de portée d’une intelligence artificielle.

                    Je crois qu’on peut faire un parallèle entre les statistiques « classiques x et l’IA. C’est comme si on disposait aujourd’hui de la faculté de pouvoir appliquer la méthode de Monte-Carlo à des modèles qui ne serait-ce que trente ans plus tôt cela relevait du rêve, car nous n’avions aucun moyen de collecter les données le permettant, d’ailleurs ces données n’existaient tout simplement pas, bien que les évènements, réalité et objets qu’elles concernent existaient eux sans aucun doute, ni la puissance de calcul que cela allait nécessiter.

                    C’est peut-être pour cela que « l’IA » semble si révolutionnaire à tant de gens : car même en ayant toutes les connaissances nécessaires pour savoir que c’était possible, tout autant abreuvé de représentations littéraires de ce phénomène, et même résolument convaincu de son avènement, il nous était, du moins c’est ce que je pense, impossible de prévoir l’effet que cela nous ferait d’y parvenir concrètement.

                    Donc, on peut le craindre ou le souhaiter, s’y résigner ou lutter contre, y croire ou s’en moquer, mais à mon avis, il ne peut pas y avoir ces potentielles réalisations présentées comme sociologiquement structurante : « ça va modifier profondément notre société », « nous vivons un tournant », etc, ce que tant de gens prédisent voire promettent aujourd’hui avec l’IA, si, précisément, il n’est pas admis par tous que :

                    « Nos données ne nous appartiennent pas, à nous en tant qu’individu, juste du simple fait qu’elles nous concernent, elles doivent appartenir d’abord à ceux qui les produisent et les exploitent..Pour le bien de l’humanité toute entière, en principe, malgré tous les abus, injustices et crimes auxquels cela donnera lieu.

                    Par exemple : pensez-vous qu’on puisse mettre au point une IA qui parviendrait à découvrir un remède, universel à une maladie touchant potentiellement l’ensemble des humains , telle que Parkinson, le cancer ou la calvitie, si l’intégralité des données de santé existantes ne sont pas systématiquement croisées à l’échelle mondiale ? Ou une IA qui puisse jouer un rôle significatif pour nous prévenir des pires conséquence du changement climatique si toutes les données sur l’environnement ne sont pas de la même manière que les données de santé croisées entre-elles, et également croisées avec les premières, comme avec possiblement toutes les données possibles.

                    Volonté de préservation maximal de la vie privée et espérance d’apports bénéfiques majeurs de l’IA me semble s’opposer.mutuellement.

                    • [^] # Re: Marre

                      Posté par  . Évalué à 2 (+1/-0).

                      En voyant le docu on a une réponse. Et là il ne s'agit pas de données personnelles, mais d'aliénation, d'exploitations et de traumatismes, à une échelle massive.

                      D'un strict point de vue économique et social, c'est un gaspillage d'énergie humaine sans nom.

                      Les grandes entreprises du numérique faisant cela pour le profit, les progrès bénéfiques généraux prévisibles seront des effets secondaires.

                      Un article de 972 Magazine, un site de presse de journalistes palestiniens et israéliens, explique par le menu comme l'armée israélienne s'est servie de l'IA pour automatiser une politique qu'elle avait déjà avant pour terroriser en ciblant large à Gaza.

                      Quant à nos données personnelles, dans cette société, une fois… données, c'est donné et les data brokers et autres cancrelats du web en font ce qu'ils veulent.
                      Le problème n'est donc pas de fournir nos données personnelles à brouter aux IA. Mais quelle en sera l'utilisation (des données et des IA) ? Par qui ?
                      Voilà ce qu'on nous propose une société, qui, de ce point de vue ferait triper la Stasi.

                      • [^] # Re: Marre

                        Posté par  . Évalué à 3 (+0/-0).

                        D'un strict point de vue économique et social, c'est un gaspillage d'énergie humaine sans nom.

                        C’est un gaspillage du point de vu de qui ?

                        Les grandes entreprises du numérique faisant cela pour le profit, les progrès bénéfiques généraux prévisibles seront des effets secondaires.

                        Donc rien de nouveau sous le soleil. L’IA (terme fourre-tout par excellence…) n’est pas une chose anodine, les progrès techniques le sont-ils parfois ? On peut prendre l’exemple de l’électro-ménager (pour ne pas parler de l’électricité elle-même), ça a profondément changé la société. La découverte de la pénicilline, la télé, ou que sais-je encore. Les techniques et méthodes qu’on inclut fourre dans le terme, ne sont rien d’autre que les fruits de l’acquisition de cette puissance de calcul. Une puissance devenue telle que dans la recherche de solutions à des problème, la nécessité de concevoir des algorithmes est moins pertinente que le méthode « brutale » du deep-learning.

                        Pour faire une analogie foireuse comme il se doit : c’est come si aujourd’hui on pouvait résoudre des équations différentielles qui possèdent des millers voire des millions d’inconnues simplement en testant bêtement chaque cas..

                        Des scientifiques l’avaient déjà annoncé il y a une bonne cinquantaines d’années. C’était parfaitement inepte de procéder de la sorte à leur époque, étant donné la puissance de calcul qu’offrait les premiers ordinateurs. Qui toute insignifiante qu’elle nous paraisse aujourd’hui, étant pourtant incroyablement plus rapide qu’un cerveau humain pour additionner des nombres.

                        J’ai tendance à croire un neurologue que j’ai entendu, dont le nom m’échappe (tent pis pour lui, il avait qu’a avoir un nom mémorable !) qui expliquait que l’invention/découverte de l’écriture était sans doute le bouleversement de loin le plus impactant de l’évolution ed notre espèce, de son cerveau, de l’histoire de notre conscience.

                        Si on met en regard (ça c’est moi qui le fais, lui j’en sais rien) ce changement majeur avec les suivants de même nature, qui sont d’près moi l’invention de l’imprimerie, puis celle de l’informatique, ou encore, dans un domaine connexe comme « l’image », la découverte du principe photographique, puis l’invention du cinéma, ou encore d’autres évolutions majeures comparables (la conquête de l’air, de la mer, …), on se rend compte que certes, les phases de progrès sont de plus en plus proches dans le temps, on peut donc constater une accélération, mais ces phases sont chaque fois moins « bouleversante » que la précédente, et ainsi chaque fois moins structurante pour l’humanité (ou pour le cerveau des individus humains, ce qui revient au même¿);

                        Comme si le progrès restait constant en quantité, mais d’intensité toujours davantage lissée dans le temps.

                        • [^] # Re: Marre

                          Posté par  . Évalué à 1 (+0/-0).

                          C’est un gaspillage du point de vu de qui ?

                          Un gaspillage de travail humain donc un gaspillage pour l'humanité en général. C'est encore plus prégnant pour ces populations des pays du Sud qui manquent cruellement d'infrastructures même élémentaires.

                          Tout comme le chômage est un gaspillage également.

                          L'IA est une révolution technique et un progrès mais à quel coût humain ? C'est cette société que cela juge, pas l'IA.
                          Une société qui est incapable de répondre aux besoins élémentaires d'une bonne partie de l'humanité, de répondre au réchauffement climatique, au chômage de masse et qui est menacé d'extensions de guerre.
                          Si les progrès sont moins bouleversants c'est parce que justement cette société s'enfonce dans la barbarie. Et les découvertes merveilleuses de la science, si elles se traduisent en avancées majeures, ont leur pendant nuisible. Là encore, ce n'est pas la science ou le progrès qui sont en cause mais la société dans laquelle cette science opère.

                          S'agissant du neurologue, j'aurai dit Naccache ou Dehaene.

          • [^] # Re: Marre

            Posté par  . Évalué à 6 (+4/-1).

            Et si tu préfères que l'argent public finance des trucs qui ne servent à rien, ce n'est pas mon cas

            Les "dissailledeurz" ne sont pas débiles mentaux. Ils ont compris dès le début que les modèles génératifs allaient leur faire gagner de l'argent, y compris par des moyens qui n'étaient pas immédiatement évidents. En effet, je ne vois pas trop actuellement comment ces technologies vont pouvoir créer autant de richesses qu'on en dépense pour les développer, mais je n'ai justement pas la prétention d'avoir cette compréhension.

            Il me semble par exemple qu'au-delà de l'utilisation ludique des LLM, il existe déja au moins deux domaines majeurs de l'économie où l'IA est très performante:
            * Générer du code
            * Servir d'interface pour répondre à des questions

            Après, tu as peut-être simplement une vision très personnelle de "servir à quelque chose". Évidemment que "faire les devoirs à la place des élèves", ça ne sert à rien pour la société, et c'est même très vraisemblablement nuisible. Mais c'est comme la clope ou l'alcool ou la plupart des cochonneries en plastique Made in China sur Amazon, ça sert aux gens qui s'en servent.

            Mais affirmer des trucs comme "l'IA ne sert à rien et les boursicoteurs ne rendront bientôt compte qu'ils dépensent des milliards pour rien", ça me semble être d'une naïveté mêlée de biais cognitifs majeurs (le fait que tu aimerais que ça ne serve à rien n'a pas d'influence sur la réalité).

            Au final, ce qu'il va se passer, c'est que les gens qui vont investir sur l'IA vont récolter de l'argent si ça marche, et perdre de l'argent si ça ne marche pas. Les "récalcitrants" vont être chômeurs si ça marche, et vont devenir indispensables si ça ne marche pas. Au moment de faire les comptes, la logique sera probablement respectée.

            • [^] # Re: Marre

              Posté par  (Mastodon) . Évalué à 7 (+4/-0).

              Alors, grosse nouvelle, l'argent public, ça sert en premier lieu à financer tout un tas de services publics. Que peut apporter une IA dans un service public ? C'est ça la vraie question.

              Dans mon cas, c'est un conseil régional dont les deux principales missions (en termes budgétaires) sont les lycées (les murs et les personnels hors enseignants) et les transports (le train essentiellement). Donc, on va mettre des IA à la place des CPE dans les lycées ? Ou encore mieux à la place des conseillers d'orientation ! Vu les biais connus dans les IA, je suis sûr qu'on va vers le mieux sur le sujet. Ou alors, on va mettre une IA pour remplacer le contrôleur du train. Bon, je caricature, mais on voit bien que, pour une collectivité, l'IA n'a aucune application concrète sérieuse parce que la collectivité gère un service public, et que le public, il préfère souvent parler à un humain qu'à une machine. Donc quand je dis «servir à quelque chose», je parle bien de ça.

              Que les gens qui veulent miser sur Open AI claquent leur pognon en actions de la dite entreprise (ou d'une autre), je m'en cogne complètement, ils font bien ce qu'ils veulent de leur argent. Mais dans le cas d'une collectivité publique, ça me gène un peu plus parce que ce sont mes impôts (et les tiens) qui financent tout ça et qu'il y a déjà suffisamment de choses qui me semblent plus importante à financer (comme par exemple, refaire l'isolation de tous les lycées, acheter et maintenir du matériel ferroviaire, etc) et que la collectivité n'a déjà pas assez d'argent pour le faire.

              Enfin, avant l'IA, les décideurs très haut placés dans les ministères nous ont déjà montré qu'en matière d'informatique, c'était pas très brillant (Louvois toussa). Donc croire que grâce à leur super intelligence, ils ne vont pas tomber dans divers panneaux, c'est leur accorder beaucoup de crédit.

              • [^] # Re: Marre

                Posté par  . Évalué à -3 (+2/-6).

                Personne ne fait de l'analyse ou de la génération de texte chez tes clients ? Ils n'ont pas besoin de générer des logos ou du graphisme ? Ils n'ont pas de système de support / réponse à la clientèle ? Etc…

                Je pense que tu es en train de te fourvoyer. Oui certaines tâches sont impossibles pour une IA, ils ne vont pas remplacer les profs, mais il y a plein de tâches subalternes ou ils peuvent aider, ils peuvent probablement aider les profs par exemple, eux qui ont plein de matériels texte à créer analyser, etc…

                • [^] # Re: Marre

                  Posté par  . Évalué à 3 (+2/-0). Dernière modification le 18 février 2025 à 13:19.

                  mais il y a plein de tâches subalterne

                  Faire gaffe quand même. Dans un autre post tu dis utiliser l'IA massivement dans ton taf'.

                  :)

                  • [^] # Re: Marre

                    Posté par  . Évalué à 0 (+4/-5).

                    Oui, et devine quoi, l'IA chez nous n'a pas remplacé les développeurs, ils sont toujours là, ils écrivent toujours du code.
                    Par contre elle aide à générer le code de plomberie, à analyser des documents, à faire un sommaire des problèmes trouvés chaque mois, etc…

                    Donc oui, c'est une grosse utilisation.

                    Un jour faudra que vous m'expliquiez ce que vous avez tous comme phobie contre un truc qui est juste une technologie. Cette technologie n'est pas responsable des idiots qui en abusent.

                    Cela ne vous sert en rien de vous enfoncer la tête dans le sable et insister que c'est du vent alors que les faits sont là et sont solides

                    • [^] # Re: Marre

                      Posté par  . Évalué à 3 (+3/-1).

                      Cette technologie n'est pas responsable des idiots qui en abusent.

                      Je ne te le fais pas dire.

                      :)

              • [^] # Re: Marre

                Posté par  . Évalué à 0 (+0/-3).

                le public, il préfère souvent parler à un humain qu'à une machine

                Ça n'est pas aussi évident que ça. Le public, il ne veut pas parler à une machine débile qui lui pose tout un tas de questions avant de lui dire "contacter un agent". Mais par exemple, parler à un LLM bien configuré permettrait d'avoir des réponses immédiates (si possible enregistrées et certifiées) à tout un tas de questions, et ça pourrait être très utile. Typiquement, pour remplir sa déclaration d'impôts, pour connaitre la liste des documents à fournir pour une demande, pour déposer une plainte (hors crime, hein), etc.

                L'IA est en tout cas un moyen crédible pour sortir du cauchemar bureaucratique de la fonction publique. Personne n'ose s'attaquer à la complexité bureaucratique, parce que c'est une pile immense élaborée pendant des siècles, alors on vit avec cette espèce de dette technique. Mais si l'IA était capable de remplir toute seule 95% des cases des formulaires, de pointer vers les bons services, de détecter les erreurs, de se rendre compte que le dossier est coincé quelque part dans les services, ça serait une bouffée d'air frais pour tout le monde (sans évidemment résoudre le problème à la base).

                • [^] # Re: Marre

                  Posté par  (site web personnel) . Évalué à 2 (+0/-0).

                  Typiquement…

                  T'as un exemple précis de cas de figure et de à quoi ça ressemblerait ?

                  Adhérer à l'April, ça vous tente ?

                • [^] # Re: Marre

                  Posté par  . Évalué à 2 (+0/-1).

                  L'IA est en tout cas un moyen crédible pour sortir du cauchemar bureaucratique de la fonction publique.

                  Possiblement.

                  Mais je pense que la Sainte Fonction Publique Française saura faire en sorte de maintenir une continuité cauchemardesque afin de ne pas risquer de traumatiser trop d’usager⋅ère⋅s par une soudaine absence de pression psychologique républicaine. C’est tout de même le gage de l’existence d’une nation prétentieuse et colérique. On le dit assez en ce moment, quelle importance revêt l’identité nationale française.

            • [^] # Re: Marre

              Posté par  . Évalué à 3 (+2/-0). Dernière modification le 17 février 2025 à 21:15.

              Au final, ce qu'il va se passer, c'est que les gens qui vont investir sur l'IA vont récolter de l'argent si ça marche, et perdre de l'argent si ça ne marche pas. Les "récalcitrants" vont être chômeurs si ça marche, et vont devenir indispensables si ça ne marche pas. Au moment de faire les comptes, la logique sera probablement respectée.

              Mettre sur le même les boursicoteurs et les chômeurs dans un gagnant-perdant me semble une vision toute personnelle aussi teintée de naïveté et de biais cognitifs.

              Et après ce que j'ai écrit plus haut, cette belle logique capitaliste a comme un air de réchauffé et un goût bien amer.

              Le docu montre des gens qui s'écroulent, d'épuisement ou de syndrome de stress post-trauma. Les travailleurs des pays du sud se récoltent les déchets, y compris numériques.

              On abrutit des millions de gens, des cerveaux humains qui ne consomment que 30 W (un rendement énorme pour parler d'un strict point de vue énergétique) et capables de merveilles, pour entraîner des LLM gouffres énergétiques.

              Encore une fois, l'IA n'est pas en cause, et fera des merveilles. Mais dans un océan de merde. A l'image de ce qu'ils ont fait d'internet, une foire commerciale.

              • [^] # Re: Marre

                Posté par  . Évalué à 3 (+0/-0). Dernière modification le 05 mars 2025 à 23:11.

                Mettre sur le même les boursicoteurs et les chômeurs dans un gagnant-perdant me semble une vision toute personnelle aussi teintée de naïveté et de biais cognitifs.

                Et après ce que j'ai écrit plus haut, cette belle logique capitaliste a comme un air de réchauffé et un goût bien amer.

                Merci de rappeler cette évidence que, selon moi, une majorité de gagnants comme de perdants offusquent, refusent de concevoir, autant les uns que les autres, pour des raisons diamétralement opposées. Au point que je parie que tu considères, chère lecteurice, que toi-même est plutôt sur un match nul. Non ? ;)

                On peut faire match nul bien sûr, mais c’est rare, et dans ce cas il y a jamais eux égalité dans tous les sets…

                Il n’y a pas un gagnant-perdant, il y a en parallèle un gagnant-gagnant-perdant et un perdant-gagnant-perdant. Et la récompense des gagnants et le sort des perdants sont bien éloignés dans chacun de ces deux cas.

                Heureusement que la vie n’est pas un jeu !

            • [^] # Re: Marre

              Posté par  . Évalué à 4 (+1/-0).

              Les "dissailledeurz" ne sont pas débiles mentaux. Ils ont compris dès le début que les modèles génératifs allaient leur faire gagner de l'argent,

              Est-ce qu’à un moment ces décideurs pourraient remettre en question la décision qu’ils semblent avoir tous pris depuis des temps immémoriaux, à savoir que la création, pour accumulation et croissance, de valeurs fiduciaires, comme but primordial devant tous les autres, constitue l’axiome éternel soutenant toutes les décisions futures qu’ils auront à prendre ?

              S’ils ne peuvent pas le faire, alors ils ne décident plus rien.

              • [^] # Re: Marre

                Posté par  . Évalué à 2 (+0/-1).

                C'est quoi que tu appelles "valeurs fiduciaires"? La monnaie? Je ne crois pas que ça soit à la mode de garder de la monnaie, tu veux plutôt des actifs, non?

                Mais bon, je ne comprends pas trop où tu veux en venir. Quand tu diriges une entreprise, tu vas prendre des décisions d'investissement qui vont dans le sens de faire gagner plus d'argent à l'entreprise dans le futur, c'est quand même fondamentalement ton métier. Une entreprise qui stagne ça n'existe pas, tu ne peux pas viser une sorte de statu-quo, puisque tu vas finir par couler en te faisant dépasser par la concurrence. Maintenir une entreprise, c'est donc toujours avancer.

                Investir dans les LLM, c'est soit investir dans un produit ou un service que tu veux vendre, soit investir en interne parce que tu espères un gain de productivité. Je ne comprends pas trop où tu vois quelque chose de fondamentalement vicié là-dedans, sauf à remettre complètement en question le fonctionnement de l'économie.

                • [^] # Re: Marre

                  Posté par  . Évalué à 5 (+4/-0).

                  Une entreprise qui stagne ça n'existe pas, tu ne peux pas viser une sorte de statu-quo, puisque tu vas finir par couler en te faisant dépasser par la concurrence. Maintenir une entreprise, c'est donc toujours avancer.

                  Est-ce vrai ? Les restaurants sont des entreprises, idem pour les petits magasins de quartier, etc…

                  Je pense qu'il y a plutôt une force liée au marché boursier, ou la valeur de la société est liée à sa progression, qui amène cette obsession de grandir.

                  • [^] # Re: Marre

                    Posté par  . Évalué à 3 (+1/-1).

                    Les restaurants qui coulent, ça existe aussi… L'investissement est indispensable, ne serait-ce que pour être aux normes d'hygiène par exemple. En cuisine, la technologie évolue (four vapeur, contrôle électronique de la température…). Tu as de plus en plus de restaurants qui se sont équipés en bidules électroniques pour prendre les commandes; et tu as aussi l'informatisation de la comptabilité et de la gestion (qui ne se voit pas en salle, mais tu as des ordinateurs, des logiciels…).

                    Et puis pour un restaurant, l'innovation c'est aussi dans l’assiette. Si tu sers la même chose qu'il y a 40 ans avec le même dressage, tu risques de ne pas attirer les foules.

                    Donc même dans un secteur économique où la R&D et l'investissement ne semblent pas si importants, la survie à long terme reste dépendante d'une certaine dose d'investissement, et même de technologie. Tu aurais aussi pu citer les coiffeurs, les masseurs, les psychologues… tu as des secteurs pour lesquels les gains de productivité sont plus limités que d'autres.

                    • [^] # Re: Marre

                      Posté par  . Évalué à 2 (+1/-0).

                      Alors investir pour rester à jour oui, ma prose était plutôt qu'il n'est pas forcèment nécessaire de grandir continuellement, de viser une augmentation permanente des revenus, …

  • # Effondrement ?

    Posté par  (site web personnel, Mastodon) . Évalué à -4 (+1/-6). Dernière modification le 16 février 2025 à 12:00.

    Mais de quel effondrement parles t'ont? Du problème du moment qui n'en est pas vraiment un.
    Tu pourrait remplacer IA par Open-Source, Linux, Pétrole, Énergie, Démocratie, Machine à vapeur… tu trouverai toujours des arguments et souvent les mêmes pour dire que ce n'est pas tenable que cela va causer sa perte. Il faut prendre un peu de recul…
    Certes l'IA fait face à des défi techniques, humains et économiques… mais rien de bien insurmontable. Il en est ainsi pour toute technologie emergente. Un scepticisme mêlé d'un enthousiasme jusqu'à ce qu'un juste milieu soit trouvé.
    Les "pauvres" "exploités", cela leur fait toujours de l'argent en plus. Le problème ce n'est pas l'IA mais le système…
    La pollution de l'IA par l'IA n'est qu'un défi technique pas du tout insurmontable.
    L'IA c'est comme la machine à vapeur en son temps, cela détruit des emplois de force et en créé d'autres un peu moins pénible… et comme l'humain en demande toujours plus il y aura toujours du travail pour tous…

    Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.

    • [^] # Re: Effondrement ?

      Posté par  . Évalué à 10 (+8/-0). Dernière modification le 16 février 2025 à 12:29.

      L'IA c'est comme la machine à vapeur en son temps, cela détruit des emplois de force et en créé d'autres un peu moins pénible… et comme l'humain en demande toujours plus il y aura toujours du travail pour tous…

      Non, non, il faut surtout passer d'une société dans laquelle le revenu est fondé sur le travail à autre chose. C'est très ancré culturellement, mais c'est ridicule de rester sur le système « qui ne travaille pas ne doit pas manger ».

      • [^] # Re: Effondrement ?

        Posté par  (site web personnel, Mastodon) . Évalué à 0 (+2/-3).

        Ça c'est une autre question indépendante de l'IA. Quoique peut-être que l'IA l'aidera.
        Mais à ce moment il faudrait ne pas vouloir plus que le logement et la nourriture. Exit électricité, VOD, jeux vidéo, voiture, restaurant, hôtel et autre loisirs… ceux ci seront réservés à ceux qui travail.
        Techniquement avec une hausse de productivité on a moins besoin de travailler à condition de ne pas en demander toujours plus

        Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.

        • [^] # Re: Effondrement ?

          Posté par  (site web personnel) . Évalué à 3 (+1/-0).

          Je suis tiraillé. J'ai envie de mettre un -1 pour ceci :

          Exit électricité, VOD, jeux vidéo, voiture, restaurant, hôtel et autre loisirs… ceux ci seront réservés à ceux qui travail.

          Mais je ne peux m’empêcher de mettre un +1 pour ça :

          Techniquement avec une hausse de productivité on a moins besoin de travailler à condition de ne pas en demander toujours plus

        • [^] # Re: Effondrement ?

          Posté par  . Évalué à 2 (+0/-1). Dernière modification le 17 février 2025 à 15:38.

          Techniquement avec une hausse de productivité on a moins besoin de travailler à condition de ne pas en demander toujours plus

          J'ai l'impression pourtant que "demander plus" est complètement naturel : demander de la nourriture bio plutôt que des trucs ultratransformés, demander plus de confort dans le métro, demander des belles pistes cyclables entretenues plutôt que des pavés pourris, demander des logements bien isolés avec l'électricité aux normes, demander l'accès à des technologies médicales coûteuses (traitements contre le cancer, IRM…), demander de l'aide à la personne pour les petits vieux dépendants, demander la fibre dans les petits villages, demander des profs, des juges, des policiers, avoir accès à plus de livres, plus de films, plus de musique… Penser qu'on pourrait se satisfaire de moins, c'est forcément un truc de privilégiés, parce que même en 2025 il faut être sacrément privilégié pour penser qu'on a assez. Évidemment, si on se focalise sur les smartphones ou les gadgets en plastique, évidemment qu'on pourrait réduire, mais sur la plupart des autres postes (logement, nourriture, santé, éducation, culture, …), on voudrait soit plus, soit "mieux".

          Et je trouve aussi assez décalé de penser pour les autres. On peut être satisfait de ce qu'on a, mais c'est totalement personnel. Si ton voisin a une femme dans chaque port et 12 pensions alimentaires à assurer, il va avoir besoin de plus que toi…

      • [^] # Re: Effondrement ?

        Posté par  (site web personnel, Mastodon) . Évalué à 2 (+1/-0).

        L'un n'empêche pas l'autre. On peut assurer un logement/nourriture gratuit et loisir payant. Mais ça ce n'est pas un problème technologique mais politique.

        Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.

    • [^] # Re: Effondrement ?

      Posté par  . Évalué à 2 (+1/-0).

      J'ai dû mal m'exprimer.

      Par effondrement, je parle de celui du modèle. La société actuelle n'a pas besoin de cela pour, lentement, s'effondrer.

      C'est pour éviter cet effondrement que l'on emploie une myriade de personnes. C'est ce que je voulais confirmer.

      En effet, comme je l'ai dit ici et ailleurs, le problème est en effet pas l'IA mais le système qui l'a fabriqué.

      Il est donc inutile de mettre des guillemets pour faire croire que j'aurai eu un ton misérabiliste. Bien au contraire, ces travailleurs représentent une force incroyable pour renverser cela.

      Quant à l'argent en plus, c'est en effet l'argument de ces patrons qui croient faire le bonheur de l'humanité.

    • [^] # Re: Effondrement ?

      Posté par  . Évalué à 3 (+1/-0).

      La pollution de l'IA par l'IA n'est qu'un défi technique pas du tout insurmontable.

      Peux-tu développer ? comment élimine des donnes d'entrée d'une IA les données provenant d'autres IA ?

      • [^] # Re: Effondrement ?

        Posté par  . Évalué à 3 (+2/-1).

        Parce que si c’est mesurable, c’est détectable, et c’est mesurable ? Regarde la définition sur la page Wikipedia en anglais :

        Shumailov et al.[9] coined the term and described two specific stages to the degradation: early model collapse and late model collapse. In early model collapse, the model begins losing information about the tails of the distribution – mostly affecting minority data. Later work highlighted that early model collapse is hard to notice, since overall performance may appear to improve, while the model loses performance on minority data.[13] In late model collapse, the model loses a significant proportion of its performance, confusing concepts and losing most of its variance.

        Donc, procédure simple : avant d’intégrer une nouvelle page dans ton corpus d’entraînement pour ton prochaine modèle, fine-tuner le modèle existant sur la nouvelle page, et voir si la variance baisse (regarder le kurtosis aussi pour détecter le premier stade).

        Cette procédure exacte est probablement bien trop prohibitivement coûteuse, mais ça montre que c’est probablement solvable en principe.

        En pratique ?

        • Il y a déjà un processus de filtrage, cf le papier de Llama3 : « These improvements include the development of more careful pre-processing and curation pipelines for pre-training data »
          • Une méthode stupide et qui fonctionne plutôt bien (relativement à la stupidité) est de demander au modèle actuel de juger de la qualité des données (même papier de Llama 3) : « To train a quality classifier based on Llama 2, we create a training set of cleaned web documents, describe the quality requirements, and instruct Llama 2’s chat model to determine if the documents meets these requirements »
        • Ce papier semble dire que ce n’est pas un problème si les données originelles sont toujours présentes ? L’article cité par Wikipedia, par exemple, considère le cas où on entraîne les données du modèle n+1 par des données générées pas le modèle n, alors qu’en pratique on entraîne le modèle n+1 par les données initiales + des données générées par le modèle n (si ce n’est pas claire : la figure 1 du papier illustre bien la différence). À prendre avec quelques pincettes toutefois, le phénomène de model collapse a été observé dans d’autres circonstances (RLHF par exemple). La réalité est probablement entre les deux, où garder les données initiales permet de mitiger mais pas éliminer le phénomène.
        • Il y a probablement d’autres méthodes. Par exemple, publiquement, il y a ça. Ce n’est pas un domaine sur lequel je m’attend à voir les gros labos (DeepMind/Anthropic/OpenAI) publier leurs méthodes toutefois, tout ce qui concerne le pre-training est généralement jalousement gardé depuis 2-3 ans.
        • Solution non-technique : ne garder que des sources à peu près sûres sur les nouvelles données (Wikipedia, journaux).

        Autre point extrêmement important : le model collapse n’arrive que lors de l’ingestion indiscriminée de données générées par un autre modèle. Dès lors qu’il y a curation par une méthode de validation externe (par exemple, un humain), une décision binaire (incorporer le texte dans le corpus ou non) suffit.

        C’est connu depuis AlphaZero, où le modèle s’est entraîné avec lui-même (des parties générées par lui-même). L’ingrédient « secret » dans ce cas est le bit « quel côté a gagné la partie ? » fourni par un validateur externe. Ce papier explore la même question par l’angle explicite du "model collapse".

        Pourquoi est-ce important ? Parce que ça fait un moment que les labos prévoient exactement ce problème de non pas vraiment de "l’internet est pollué" mais "on va arriver à court de données de qualité". La solution est de "générer des données à partir des modèles existants". Le problème est maintenant "model collapse". La solution est "validateur externe", préférablement automatisé, par exemple : AlphaProof. Les modèles de raisonnement actuels sont très probablement une variante plus ou moins directe de ça (c’est explicitement le cas de DeepSeek R1).

        • [^] # Re: Effondrement ?

          Posté par  . Évalué à 1 (+0/-0).

          Merci pour ces explications détaillées et éclairantes.

          Je me disais que si ce n'était qu'une question de variance, même sur des données multi-dimensionnelles cela devait pouvoir s'automatiser.

          Le docu m'apprend qu'il est demandé aux travailleurs sous-traitants de regarder des contenus ultra-violents pas seulement pour la modération des plateformes mais aussi pour la formation des LLM qui doivent être capables de discerner ces contenus violents.

          On voit ainsi plusieurs de ces personnes tomber en larmes dans le docu.
          Ils témoignent masqués car ils signent des NDA avec des clauses menaçant d'années de prison… pour gagner quelques dollars.

      • [^] # Re: Effondrement ?

        Posté par  (site web personnel, Mastodon) . Évalué à -3 (+0/-4).

        Pour faire simple:
        1) le Web est plutôt plus qualitatif avec l'IA. Pour faire simple les gens sans compétences journalistique écrivent de meilleur articles.
        2) on peut filtrer le Web par des IA entre autre pour garder le "meilleur" selon nos critères.
        3) C'est un programme, on lui fait faire "ce que l'on veut".
        4) l'IA progresse et les techniques avec permettant d'avoir mieux avec moins.
        Cf : https://youtu.be/AfgAEIK9F8c?si=gjgo8DnPdCs6mCn8

        Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.

  • # La source

    Posté par  . Évalué à 6 (+5/-0).

    J'ai trouvé la source primaire, une étude de la seule Banque mondiale sur les travailleurs sans frontières (sic) qu'ils nomment online gig workers.

    Il ne s'agit pas seulement des personnes travaillant pour l'IA. Cela comprend également les modérateurs et annotateurs pour des plateformes diverses, les démarcheurs et supports. L'IA n'est d'ailleurs pas mentionnée dans le rapport.
    Cela n'en reste pas moins impressionnant.

    • La fourchette basse, 154 millions, correspond aux travailleurs pour qui c'est la principale source de revenus (4,4 % de la force de travail mondiale).
    • La fourchette haute, 435 millions, comprend les personnes pour qui c'est un revenu secondaire.

    Ledit rapport (PDF) : https://thedocs.worldbank.org/en/doc/75ec866c182238e087167ce03244c8da-0460012023/original/Reading-Deck-Working-without-borders-updated.pdf

  • # Commentaire supprimé

    Posté par  . Évalué à 0 (+0/-0). Dernière modification le 17 février 2025 à 07:38.

    Ce commentaire a été supprimé par l’équipe de modération.

  • # Autre documentaire : Travail à la demande

    Posté par  . Évalué à 3 (+1/-0).

    Il y a aussi le docu Travail à la demande qu'on peut regarder sur arte.tv moyennant quelques euros. Il a été partagé en lien.

    Le thème autour de Mechanical Turk est pertinent concernant ces "centaines de milliers d'emplois".

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.