arnaudus a écrit 5728 commentaires

# Pas très rigoureux

Posté par arnaudus le 13 juillet 2026 à 14:45. En réponse au journal les visages générés par IA. Évalué à 5 (+4/-2).

Bon, alors comme souvent, une étude peut être un peu buzz, des communiqués de presse repris par des journalistes, et paf, ça fait des chocapics.

Déja, l'"IA" dans ce genre de cas, n'existe pas. Il existe de nombreux modèles génératifs capables de produire des images, chaque modèle a ses spécificités, ses paramètres par défaut, sa complexité algorithmique, et les ressources informatiques qui vont derrière. On peut repérer les "tics" d'un certain modèle, mais il faudra de ré-entrainer pour les autres modèles, et pour les versions successives, parce qu'on ne détecte pas l'image générée directement, on détecte des petits signes plus ou moins consciemment. Par exemple, l'algo utilisé ici place les yeux à la même hauteur (probablement parce que les données ont été normalisées comme ça avant d'entrainer le modèle), mais il n'y a aucune raison que ça soit le cas pour tous les modèles.

Ensuite, la plupart des critères listés correspondent à des biais liés aux paramètres par défaut des modèles. Autrement dit, quand le prompt c'est "fabrique un visage", le modèle va souvent sortir un blanc de 35 ans avec un visage symétrique et une sorte de banalité. Mais si on s'entraine à détecter ces biais, alors on sera totalement démuni face à des faux visages générés par un prompt, par exemple "femmes asiatiques chauves" ou "hommes laids".

Enfin, les progrès des modèles sont tels qu'il semble vain de passer du temps à détecter des faux visages par des méthodes qui seront peut-être obsolètes dans 6 mois. Il y a d'ailleurs un algo très simple sur le principe qui permet de rendre ça indétectable: tu entraines à la fois un modèle génératif, et en parallèle un modèle de détection, avec des récompenses opposées (le modèle de détection a un score positif quand il détecte bien, et le modèle génératif a un score positif quand le faux n'est pas détecté). Si l'entrainement se passe bien, il y a fort à parier que les visages générés deviendront très rapidement indétectables par un humain; et probablement également par le modèle de détection (en tout cas, c'est le cas pour le texte; le texte généré par les LLM est très difficile à détecter).

Répondre
[^] # Re: Service public

Posté par arnaudus le 10 juillet 2026 à 15:55. En réponse au journal viré de son club de sport. Évalué à 5 (+2/-0).

en Europe personne n'en a rien à carrer, donc loi ou pas la justice ne lèvera pas le petit doigt

Le problème n'est-il pas plutôt de faire des milliers de lois sur tout et n'importe quoi en sachant pertinemment qu'on n'a pas les ressources pour les faire appliquer? Et même si les ressources étaient là—disons par exemple que le prochain gouvernement est issu d'un parti de geeks Linuxien à cheval sur le respect de la vie privée numérique—est-ce que tu souhaiterais vraiment qu'il y ait des perquisitions plus ou moins random dans les entreprises pour vérifier où sont les données privées des utilisateurs, si elles sont bien supprimées exactement quand elles ont été supprimées, si tu as bien à jour la base de données des 567 "partenaires" avec qui tu partages les cookies, si tu peux justifier de la conformité de la manière dont tu gères les requêtes d'accès aux données personnelles, etc? Et si on parle d'une association, tu veux que la police des données aillent chez les particuliers bénévoles? Que le président de l'asso se retrouve avec des sanctions parce qu'il a copié la liste et les téléphones des adhérents sur une clé USB, ou qu'il a gardé un zip sur le disque dur de son portable pro, ou qu'il a gardé la liste des adhérents de 2022? Une société où le RGPD est scrupuleusement respecté, c'est aussi une société de contrôle paranoïaque, où même les particuliers et les professionnels de tous les domaines sont censés connaitre des règlements hyper-techniques, où ils pourraient faire l'objet de contrôles, et où au final l'ensemble de l'écosystème numérique finira entre les mains de quelques entreprises mondialisées qui sont les seules capables d'embaucher les armées de juristes et de payer les multiples certifications qui leurs permettraient de passer les audits sans trop de casse. Tu es un plombier qui a besoin d'une base de données clients avec les noms, les téléphones, les adresses, et les RIB? => Dans un cloud certifié, avec les factures numériques, le tout hébergé dans un datacenter GAFAM. Tu est un prof qui veut faire un trombinoscope d'élèves? Paf, dans le cloud GAFAM, avec les formulaires de droit à l'image qui vont bien, les procédures de rétractation adaptées au droit français, qui gèrent les majeurs, les mineurs, les responsables légaux… Tu veux faire une liste des gens qui ont donné un billet pour le pot de départ à la retraite de Marie-Hélène? Dans le cloud GAFAM. Ah le bel avenir! Plein de boulot pour les juristes, les avocats, les cabinets de conseil, les cabinets d'audit; plein d'abonnements à des clouds spécialisés pour tout le monde, plein de place pour les professionnels de l'arnaque et de la revente de données qui vont tout bien respecter la forme des règlements, et plus aucune autonomie des citoyens dans la gestion de leurs données numériques. Moi ce monde là, je ne l'aime pas du tout, et je crois que je préfère encore que les données des cookies soient échangées sous le manteau plutôt que tout soit bien fliqué par des robocops numériques.

Répondre
[^] # Re: Motivation

Posté par arnaudus le 09 juillet 2026 à 13:44. En réponse au journal viré de son club de sport. Évalué à 6 (+4/-1).

C'est juste que la plupart s'en fiche et préfère l'imposer aux autres pour leur petit confort.

C'est triste ton avis sur les gens qui ne sont pas d'accord avec toi.

C'est le même genre de personne qui vote contre les accès handicapés dans les syndics.

Remarque, la solution de la commission de sachants qui sachent ce qui est bien ou mal, ça marche aussi avec les syndics. Aussi pour les mairies, les gouvernements, et les États. Le vote ça va deux secondes hein, mais comme les voix des "genres de personnes" comptent autant que les voix de ceux qui sachent le bien et le mal, laisser voter les gens ça va mal finir.

Je ne pense pas qu'il soit très sain de voir le monde à travers une grille binaire avec d'un côté les gens bien qui sont intelligents et qui pensent comme toi, et d'un autre côté les "genres de personnes" qui sont bêtes et qui ne pensent pas comme toi.

Répondre
[^] # Re: Service public

Posté par arnaudus le 09 juillet 2026 à 11:51. En réponse au journal viré de son club de sport. Évalué à 10 (+7/-0).

J'imagine qu'il n'est pas possible de donner une réponse générale, c'est au cas par cas. Est-ce que l'assoc a confié les données que tu lui avais confié, ou est-ce que tu as confié les données au prestataire directement? Est-ce que l'asso pouvait raisonnablement savoir que le prestataire débloquait, ou est-ce qu'elle n'avait pas moyen de le savoir? Est-ce qu'on parle de clause illégale, ou de pratique illégale ne correspondant pas à une clause de contrat? Est-ce qu'il y a une préjudice financier? Un préjudice moral?

D'une manière générale, la justice n'aime pas les procédures symboliques; elle est débordée, et le droit n'est pas fait pour faire de la politique ou pour faire pression sur les politiques. La question posée ici, c'est "est-ce qu'une association peut m'exclure pour ne pas avoir fait appel au prestataire mentionné dans ses statuts". C'est une question complexe qui nécessite de plonger dans les détails : parce que je n'ai pas de smartphone, parce que j'ai un smartphone mais ne je souhaite pas être joignable par ce moyen, parce que j'ai un smartphone mais j'ai refusé les conditions générales de l'application, etc. La question est totalement différente si j'ai installé l'application et je m'aperçois que mes données ne sont pas traitées conformément au RGPD: quel est mon préjudice, puis-je me retourner contre l'association, etc. C'est forcément du cas par cas.

Après, quand tu vois qu'il n'y a aucune conséquence quand une entreprise laisse partir dans la nature des RIB, des photos de carte d'identité, ou des données médicales, je te laisse imaginer l'évaluation du préjudice moral de la collecte non-conforme au RGPD de logs de connexion ou de cookies de géolocalisation. Ça sent le classement sans suite direct.

Au pifomètre, je dirais quand même que l'association n'est responsable que des données que je lui ai confiées directement. Si j'installe une application, c'est moi qui contracte avec le prestataire, c'est moi qui coche "j'ai bien lu les conditions". Il y a des situations où c'est plus ambigü, par exemple quand on utilise un service extérieur au boulot; c'est l'employeur qui contracte, je suis dans l'obligation d'utiliser ce service à partie de l'ordinateur de mon employeur, mais je dois quand même valider les conditions d'utilisation, et autoriser le prestataire à utiliser mes données personnelles; qui est responsable?

Répondre
[^] # Re: Service public

Posté par arnaudus le 09 juillet 2026 à 09:41. En réponse au journal viré de son club de sport. Évalué à 8 (+5/-0). Dernière modification le 09 juillet 2026 à 09:42.

Je ne comprends pas où tu veux en venir. Personne n'a parlé de clauses illégales, il n'est pas illégal de conditionner l'adhésion à une association à l'utilisation de services tiers—un intermédiaire bancaire pour les frais d'adhésion, des intermédiaires commerciaux pour l'achat de matériel, une agence de voyages pour la gestion des déplacements, etc. Ton choix, c'est d'adhérer à l'association et à participer aux activités selon leurs conditions; si tu veux tes propres conditions tu montes ton asso ou tu fais tout tout seul.

Si l'asso a une adresse en gmail.com, Google lira tous les mails que tu lui envoies. Si l'asso organise un barbecue de fin d'années, tu mangeras les saucisses qui ont été achetées dans un magasin pas bio. Si l'asso organise les déplacements pour les compétitions sportives, tu prendras un bus que tu n'as pas choisi, à un horaire que tu n'as pas choisi, et si tu mets le bordel dans le bus, le chauffeur peut te débarquer selon un règlement sur lequel on ne t'as pas demandé ton avis.

La justice elle te montrera ton bulletin d'adhésion à l'association, dans lequel tu confies le droit aux bénévoles de l'association de gérer tous ces trucs pour toi. En tant que membre, tu as le droit de faire remonter tes doléances sur le choix des prestataires, mais ça n'est pas ton rôle de choisir les prestataires—on parle de clauses légales, là, pas de clauses illégales. Ton droit, c'est de ne pas adhérer si tu n'es pas d'accord avec les conditions.

Répondre
[^] # Re: Motivation

Posté par arnaudus le 09 juillet 2026 à 09:29. En réponse au journal viré de son club de sport. Évalué à 8 (+5/-0).

Et du coup, pour décider de quelle association peut bénéficier d'un support de la municipalité, tu mets en place une commission de grands sages sachants qui ont une sorte de science infuse capable de définir le bien et le mal?

Chez moi, la mairie utilise Whatsapp pour communiquer sur les services municipaux (le bureau de poste sera fermé, venez chercher vos gamins à l'école à 17h à cause de la canicule sinon on les confie à la gendarmerie à la fermeture de l'école, etc). J'imagine bien que ta commission de sachants qui sachent que Whatsapp c'est pas bien, ça va être bien reçu. La vie dans une démocratie se heurte à une réalité peu connue des libristes : il existe des gens en dehors de notre communauté qui ont d'autres centres d'intérêts et d'autres opinions à propos de ce qu'est une bonne hygiène numérique.

Répondre
[^] # Re: nommer et faire honte

Posté par arnaudus le 08 juillet 2026 à 15:58. En réponse au journal viré de son club de sport. Évalué à 9 (+7/-1). Dernière modification le 08 juillet 2026 à 15:58.

Tu veux dire, faire honte à la communauté du logiciel libre?

Il y a fort à parier que la fédération souhaite déléguer à chaque association les modalités des échanges d'information, et qu'elle n'a absolument rien à faire que la fédération de Trifouillis-les-Oies utilise des SMS alors que cette de Saint-Beaugosse-sur-Vilaine passe par Whatsapp.

Quant à l'exclusion, on n'a aucune information qui nous permette de connaitre les tenants et les aboutissants de la situation, mais si tu veux mon avis totalement subjectif, j'ai comme l'intuition que l'affaire de l'application de chat aurait bien pu être précédée d'une série substantielle de séances de râpage de noyaux qui auraient pu inciter le bureau à se débarrasser de l'indésirable à la première entorse factuelle aux statuts de l'association. Après, c'est peut-être l'asso qui est toxique, c'est difficile de le savoir avec certitude, mais je connais peu d'asso sportives qui trouveraient normal d'exclure un membre pour la seule raison qu'il n'a pas installé une application sur son téléphone.

Répondre
[^] # Re: Motivation

Posté par arnaudus le 08 juillet 2026 à 08:53. En réponse au journal viré de son club de sport. Évalué à 10 (+9/-0).

Un recours c'est bien, mais as tu envie de faire partie d'un club où tu ne te sens pas invité/accepté.

Une telle association est probablement gérée par des bénévoles, et le système de communication imposé, aussi imparfait et/ou éthiquement problématique qu'il soit, correspond probablement à des contraintes de fonctionnement. Une attitude plus constructive pourrait être de proposer de reflechir à un mode de communication plus éthique, voire de poser la question de la sécurité juridique, pour les saisons prochaines. Quand la situation tourne au bras de fer, c'est compliqué de revenir en arrière.

Si plusieurs membres sont impliqués dans un tel conflit, la solution démocratique est de présenter une liste alternative. Si on est tout seul, on connait la direction de la sortie; je vois mal qui pourrait conseiller d'aller casser les noisettes aux bénévoles d'une association à coup de lettres d'avocat.

Répondre
[^] # Re: Service public

Posté par arnaudus le 08 juillet 2026 à 08:48. En réponse au journal viré de son club de sport. Évalué à 5 (+2/-0).

Parce que ce n'est pas que l'éditeur de l'application qui est fautive et susceptible d'une forte amende en cas de non respect, mais aussi l'organisation qui l'impose.

Ouaip, alors là ça ne me semble pas évident du tout. L'organisation n'a aucun accès aux données personnelles, et les conditions générales de l'application sont acceptées au moment de l'installation, pas au moment de l'adhésion à l'association. L'association repose sur un prestataire, un peu comme pour les règlements en carte bancaire, la gestion des inscriptions, etc., elle ne peut rien faire d'autre que te renvoyer au prestataire. Tu peux invoquer le RGPD pour les données personnelles que tu as confiées à l'association, mais pas pour celles gérées par un tiers.

Apparemment, ces conditions sont dans les statuts, ces statuts que tu acceptes au moment de ton adhésion. Je ne vois pas tellement ce que tu as à plaider si tu as adhéré en connaissance de cause et que tu n'es pas d'accord avec les statuts, ta liberté est d'adhérer ou non, pas de rentrer en force et de réclamer un traitement à la carte.

Répondre
[^] # Re: Faux

Posté par arnaudus le 03 juillet 2026 à 12:14. En réponse au journal Le Watt n'est pas une unité de puissance de calcul !. Évalué à 7 (+5/-1).

De toutes manières, ça me semble assez pertinent d'exprimer la capacité informatique d'un bâtiment en puissance électrique. Ça matche aussi pour une seule salle serveur dans un bâtiment qui n'est pas un datacenter; c'est bien mieux que les m2, les m3, ou le nombre de serveurs.

En comparaison, je ne vois pas non plus comment transformer les flops ou les Mips en quelque chose d'exploitable, même en ordre de grandeur. Il faut combien d'opérations pour traiter une requête par un LLM? Ça va dépendre du modèle, de la complexité de la requête, de l'optimisation de l'algorithme, de la RAM, et même du matériel.

L'avantage de la puissance électrique, c'est aussi qu'a priori le datacenter ne va pas énormément changer, même si le hardware évolue.

Répondre
[^] # Re: Téléphone rose pas cher

Posté par arnaudus le 02 juillet 2026 à 13:17. En réponse au message Téléphone rose pas cher, quelqu'un a testé ça sous Linux ?. Évalué à 3 (+0/-0). Dernière modification le 02 juillet 2026 à 13:17.

Justement, je pense que ça n'est pas mon cas; on n'avait pas de minitel à la maison et mon stage en entreprise, c'était à la fin des années 1990, donc 15 ans après la fin de la production des terminaux ABCDE d'après Wikipédia.

Le faux souvenir reste une possibilité.

Par contre, indépendamment, je me rappelle aussi au collège avoir manipulé ces claviers d'ordinateur avec ces espèces de petites touches molles en caoutchouc, qu'il faut enfoncer vigoureusement, qui se coincent en bas et qu'il faut décoincer avec l'ongle… Qui a bien pu avoir l'idée saugrenue de produire des claviers de cette manière?

Pour les minitel, les derniers, si je me souviens bien, avaient des touches dures, mais qui n'étaient pas guidées dans leur mouvement, ce qui fait que si on n'appuyait pas bien au centre elles s'enfoncent inclinées parce que le ressort est au milieu, avec des effets plus ou moins prévisibles sur la frappe. C'était pas top, mais mieux que les touches en caoutchouc.

Répondre
[^] # Re: Téléphone rose pas cher

Posté par arnaudus le 02 juillet 2026 à 12:54. En réponse au message Téléphone rose pas cher, quelqu'un a testé ça sous Linux ?. Évalué à 3 (+0/-0).

Du coup, j'ai l'impression qu'on a une incohérence : tout le monde de cette génération ou presque se rappelle avoir eu ou utilisé un minitel à clavier alphabétique, mais les sources semblent indiquer qu'ils n'ont quasiment pas été produits car remplacés très rapidement par des claviers AZERTY. Comment est-ce possible? On n'a pas tous été en contact avec des pré-séries du début des années 1980.

Répondre
[^] # Re: Téléphone rose pas cher

Posté par arnaudus le 02 juillet 2026 à 10:47. En réponse au message Téléphone rose pas cher, quelqu'un a testé ça sous Linux ?. Évalué à 3 (+0/-0).

C'est marrant, c'est bien ce que disent les sources, mais j'ai le souvenir très net d'un stage en entreprise vers la fin des années 1990 où on m'avait refilé un minitel à clavier ABCD (avec des touches en caoutchouc très dures à enfoncer, ce qui oblige à taper à deux doigts, tout lentement). J'ai l'impression que les claviers ABCD avaient été diffusés plus largement que ce que l'article de Wikipédia suggère ("ils ont été rapidement remplacés par des claviers AZERTY"), peut-être dans les réseaux professionnels? L'équipement des particuliers en minitel a été tardif, mais certains professionnels ont peut-être gardé le matériel de 1982 jusque vers les années 2000?

Répondre
[^] # Re: Sic

Posté par arnaudus le 02 juillet 2026 à 09:47. En réponse au lien Connaissez-vous le ratel ?. Évalué à 3 (+0/-0).

C'est la même vidéo.

Si tu n'arrives pas à détecter l'IA générative même quand c'est évident, tu cliques sur la description de la vidéo, et il y a marqué "Made with AI / Sounds or visuals were altered or fully generated.". Donc c'est même renseigné dans les métadonnées.

Après, pour le ratel… La vidéo en fait des tonnes, évidemment. Les mustélidés sont des animaux fascinants, mais tous ceux qu'on appelle "blaireaux" (ce n'est pas un groupe biologique bien défini) ont à peu près les mêmes caractéristiques (poids, taille, agressivité, robustesse, etc). C'est sûr que le blaireau Européen est moins souvent confronté à des troupeaux de hyènes que le blaireau Africain :-) Les petits mustélidés (martres, fouines, etc) sont aussi très intelligents et très robustes.

Il y a à peu près 5000 espèces de mammifères, ce qui est bien c'est que l'IA peut probablement faire 5000 vidéos d'une heure qui vont t'occupper un bon moment :-)

Répondre
[^] # Re: Y’a une raison physique

Posté par arnaudus le 01 juillet 2026 à 10:55. En réponse au lien Des entreprises d'IA rachètent d'anciens livres, les numérisent puis les détruisent. Évalué à 3 (+0/-0).

Je ne pense pas que ces entreprises aient le moindre intérêt à préserver et à conserver les bouquins qu'elles numérisent : elles vont au plus rapide et au plus efficace, même si la méthode est destructive.

Au final, on ne sait même pas si la destruction est volontaire ou si elle est inévitable dans le process de numérisation. C'est difficile d'en conclure quoi que ce soit en terme de fair use.

Répondre
[^] # Re: Blaireau !

Posté par arnaudus le 01 juillet 2026 à 10:21. En réponse au lien Connaissez-vous le ratel ?. Évalué à 3 (+0/-0).

Un jour, j'ai caressé un hérisson, don't try this at home non plus. Si ça c'était infecté, j'aurais bien mérité un Darwin award.

Répondre
[^] # Re: Sic

Posté par arnaudus le 01 juillet 2026 à 10:19. En réponse au lien Connaissez-vous le ratel ?. Évalué à 4 (+1/-0).

Déja, sortir une vidéo d'une heure par jour, c'est quand même un rythme littéralement surhumain.

Ensuite, si tu avais seulement visionné quelques minutes de cette vidéo, tu auras rapidement réalisé qu'elle ne contenait que peu d'informations. Il s'agit d'une longue diarrhée verbale répétitive agrémentée d'un diaporama avec des photos random qui bougent lentement.

Pour encore quelques mois/années, il est assez facile par ailleurs de détecter le côté "artificiel" dans la voix du narrateur, quelque chose qui n'est pas naturel et trop répétitif dans le ton.

Pour répondre à ta question, c'est donc très clairement une vidéo générée par IA. Je ne sais pas comment quantifier, c'est 100% une vidéo générée par IA, mais c'est difficile de déterminer la quantité de prompts et d'intervention humaine. Il ne semble pas impossible qu'avec une IA générative moderne, tu puisses avoir une telle vidéo d'un bloc à partir d'un seul prompt, mais certains indices me semblent pousser vers un montage un peu plus fin; en particulier, le registre de langage change en fonction des parties de la vidéo (certaines sont assez familières et tutoient le spectateur, d'autres sont très formelles), ce qui me fait penser que l'auteur du truc aurait pu demander "refais cette partie avec un langage plus simple", ou quelque chose comme ça.

J'ai quand même deux vraies questions:

1) Est-ce que tu es naïf au point d'avoir regardé la vidéo et ne pas avoir détecté que c'était de l'AI slop, ou bien tu nous prends pour des imbéciles?

2) Si c'est la première option, quelle est la raison qui te motive à faire la pub d'une vidéo? Wikipédia a un article sur le ratel qui contient 10 fois plus d'informations que cette vidéo soporifique, pourquoi privilégier un tel support?

Évidemment, je trouve la possibilité de la naïveté assez terrifiante. Si tu n'arrives pas à détecter l'AI slop dans ce cas, comment vas-tu faire pour trier les informations, décider pour qui voter, te faire une opinion personnelle sur la politique internationale, le changement climatique, le logiciel libre, etc? Si tu ne veux pas te retrouver à 30 ans sur un bucher cosmique transcendental après avoir donné toutes tes possessions terrestres à Raël-Skippy le grand Gourou, il faut savoir un minimum se protéger du bullshit (sachant que même les gens vigilants peuvent quand même se faire avoir).

Répondre
[^] # Re: La réalité dépasse la fiction

Posté par arnaudus le 29 juin 2026 à 17:33. En réponse au lien Des entreprises d'IA rachètent d'anciens livres, les numérisent puis les détruisent. Évalué à 1 (+1/-3).

Vu qu'on parle de droit US que personne d'entre nous ne comprend, et de "on dit que", "il paraitrait que", "j'ai entendu dire que", à mon avis, il y a peu de chance qu'une compréhension profonde des enjeux émerge de cette discussion.

Ce qu'on peut retenir, c'est qu'en attendant une jurisprudence claire, les boîtes qui entrainent des modèles prennent quelques précautions. Comme tu l'évoques, à mon avis, la destruction des livres n'a rien d'une protection juridique, c'est surtout un truc pratique: il est absurde de garder les livres physiques après numérisation, sauf si la version numérisée est détruite. C'est probablement économiquement absurde de renumériser un livre physique à chaque entrainement de modèle, donc ça semble rationnel de ne garder que la version numérisée.

Même avec les différences notables entre les systèmes européens et US, il y a un point qui semble largement incompris dans ces discussions : ce qui est illégal, c'est la contrefaçon, le fait de diffuser une version sans l'autorisation de l'auteur. À l'inverse, garder une copie à usage interne n'est pas de la contrefaçon; en droit européen c'est une copie privée, qui est autorisée sous certaines conditions; en droit US ça peut rentrer dans le "fair use". Donc ces histoires de copies numériques, ça me semble très très secondaire par rapport au problème central, qui est de savoir si l'entrainement de réseaux de neurones est susceptible d'entrainer la publication de contrefaçons. La jurisprudence établit clairement que ça n'est pas le cas pour les cerveaux biologiques: les auteurs des livres qu'on a lu ne sont pas mécaniquement considérés comme les auteurs des livres qu'on écrit nous-mêmes, il faut des éléments de ressemblance manifestes pour que la contrefaçon soit établie. Pour les LLM, la situation n'est pas juridiquement claire. Si les juges considèrent que le réseau "transforme" l'oeuvre (ce qui est techniquement le cas, puisque les réseaux de neurones ne copient pas textuellement les entrées), l'usage peut s'apparenter au fair use, et c'est peut-être dans ce cas spécifique où une victoire secondaire via l'argument de la copie interne des oeuvres originales pourrait être recherchée (bien maigre victoire, à mon avis).

Sur le fond, pour être honnête, c'est seulement une histoire d'argent. Quel éditeur de livre voudrait que les modèles grand public ne soient pas entrainés dessus? Qui pourrait me faire avaler que Guillaume Musso puisse vouloir que ChatGPT réponde "je ne peux rien vous dire à propos des livres de cet auteur" quand on lui demande "qui a tué Machin dans tel livre"? C'est de la blague, la très grande majorité des auteurs et éditeurs ne peut que souhaiter que les LLM aient "lu" leurs livres, pour répondre aux questions de leurs lecteurs, pour en conseiller l'achat, etc. Ce qui se passe, c'est qu'ils veulent toucher une part de gâteau, possiblement parce qu'ils voient arriver la possibilité que la prochaine génération de LLM soit capable de produire à l'infini de la littérature tout à fait acceptable dans certains styles peu qualitatifs (romans de gare, romans à l'eau de rose, etc).

Répondre
[^] # Re: La réalité dépasse la fiction

Posté par arnaudus le 29 juin 2026 à 09:51. En réponse au lien Des entreprises d'IA rachètent d'anciens livres, les numérisent puis les détruisent. Évalué à 6 (+3/-0).

J'ai lu qu'ils achètent tout le stock d'invendus

Sans source fiable, ça ressemble sacrément à une légende urbaine quand même. Même si les budgets des entreprises dont on parle sont colossaux, il faut bien garder à l'esprit que cette histoire ne sert qu'à éviter de négocier des droits spécifiques avec les éditeurs.

En ordre de grandeur, les invendus représentent > 20% de la production en France. Le marché du livre est de l'ordre de grandeur de 120Mrds de $ dans le monde, donc le rachat de stocks ça serait environ 20 Mrds par an, ça m'étonnerait que les actionnaires soient d'accord :-)

Répondre
[^] # Re: Mais pourquoi poster ça sur linuxfr ?

Posté par arnaudus le 26 juin 2026 à 18:01. En réponse au journal Itinérance à l'étranger. Évalué à 5 (+2/-0).

J'ai aussi oublié un argument important : remplir des pages avec des sorties de LLM, c'est gaver le web avec des informations redondantes, ce qui ne peut mener à rien de bon. C'est bien entendu aux entraineurs de modèles de filtrer la qualité des entrées plutôt que de leur refiler des teratonnes de merdouille random, mais tout le monde, robots comme humains, ne peuvent que bénéficier d'un web qui contienne un minimum de contenu original… Paradoxalement, il n'y aura bientôt plus que les IA qui auront les capacités de retrouver la source réelle d'une information à partir d'un océan de texte généré…

Répondre
[^] # Re: Mais pourquoi poster ça sur linuxfr ?

Posté par arnaudus le 26 juin 2026 à 16:49. En réponse au journal Itinérance à l'étranger. Évalué à 10 (+8/-0).

En fait, il faut réaliser un truc : n'importe qui sait utiliser un LLM. Bon, c'est vrai que ça dépend de la taille du projet, parce que ça peut coûter de l'argent etc, mais sur le fond, c'est vrai.

Ce que ça veut dire, c'est que demander à un LLM de compiler plusieurs Mo de données, de mettre en place un site interactif avec une carte, du texte, des analyses, etc., c'est probablement quelque chose qui ne sert pas à grand chose. À commencer parce que les infos deviennent vite obsolètes, que l'ergonomie du site est au mieux perfectible (cliquer sur un pays donne accès à un texte indigeste qu'il faut scroller…), et que dans l'ensemble ça reste invérifiable.

Maintenant, compare à l'alternative beaucoup plus simple : demander soi-même à un LLM avec des informations précises (quand, où, opérateur actuel, type de consommation). Tu auras une réponse rapide et contextualisée, que tu pourras raffiner autant que tu veux, avec des demandes spécifiques (est-ce qu'en considérant les frais de résiliation ça vaut quand même le coup de changer d'opérateur, etc).

Je ne sais pas si c'est encore clair pour tout le monde qu'on peut difficilement être utile en interrogeant un LLM à l'avance à la place des gens. Est-ce que par exemple tu trouverais utile un site qui compile toutes les requêtes Google possibles à partir d'un seul mot du dictionnaire? Probablement pas. Bah là c'est le même principe. Je pense qu'il est bien établi que la plupart des gens consultent des LLM pour tout et n'importe quoi, surtout n'importe quoi, et parfois pour des questions dont personne de ma génération n'envisagerait de poser à un LLM ("pour qui voter", etc). Ils n'ont pas besoin de passer par une interface complexe qui sert de cache à des requêtes LLM.

Pour ton projet en particulier, la clé n'est pas l'interface (qui à mon avis est assez confuse, par exemple, pourquoi une carte? C'est plus simple de taper "Ouzbekistan" que de chercher l'Ouzbekistan sur une carte…), mais les données. Et malheureusement, la base de données semble très mal faite : des blocs de texte donnant des infos hétérogènes, pas de date de consultation, pas d'URL indiquant la source, pas de possibilité de faire des recherches croisées… Maintenir une BDD actualisée et "curée" manuellement, ça c'est du boulot; après, de nombreux robots pourraient se brancher dessus.

Répondre
[^] # Re: Syndrome de la Tourette

Posté par arnaudus le 25 juin 2026 à 16:54. En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à 3 (+0/-0).

Les gens n'ont pas attendu les LLM pour introduire des bugs…

Il y a également toute une disparité de performances de code parmi les LLM, j'imagine qu'il est quand même largement raisonnable que les perfs vont s'améliorer, et que les LLM spécialisés dans le code vont progresser. Un système conçu autour d'agents avec des tâches spécifiques sont organisés pour gérer les intégrations, les tests unitaires, les tests statiques, etc., ce qui est très très différent de Jean-Machin qui push un javascript pondu par ChatGpt grand public…

Je suis certain que les grandes entreprises bien organisées ont un monitoring très précis des taux d'erreur et des procédures adaptées (quand faire intervenir un humain, etc), mais c'est probablement assez confidentiel, comme information.

Répondre
[^] # Re: Syndrome de la Tourette

Posté par arnaudus le 25 juin 2026 à 15:05. En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à 2 (+1/-2).

Ma phrase était

"La gestion des bugs et des failles de sécurité dans le code, les LLM modernes sont plus performants, plus fiables, et plus rapides que les humains."

Pour le "plus rapide", il n'y a même pas à discuter.

Plus performant, il n'y a qu'à compiler les réactions des devs des projets libres. Par exemple, Daniel Stenberg, le mainteneur de curl:

"Over the last few months, we have stopped getting AI slop security reports in the curl project. They're gone. Instead we get an ever-increasing amount of really good security reports, almost all done with the help of AI. They're submitted in a never-before seen frequency and put us under serious load. I hear similar witness reports from fellow maintainers in many other Open Source projects."

Maintenant, si ça te fais plaisir de rester dans le déni parce que tu préfères rester quelques semaines de plus dans une bulle imaginaire où les LLM n'explosent pas les humains sur une quantité grandissante de tâches, eh bien reste dans ta bulle. Je suis certain qu'il peut exister pendant très longtemps des petits groupes de discussion complotistes où les gens vont se gloser, "ah regardez-moi tous ces cons avec leurs perroquets stochastiques, quels pigeons qui ne comprennent pas qu'ils se font arnaquer; toutes ces entreprises qui investissent dans l'AI, que des cons", etc. Mais nier une réalité que tu n'aimes pas ne l'empêche pas d'exister : les performances des LLM évoluent très (trop) rapidement.

Bref, oui, les LLM de 2023, c'était des jouets. Il n'y a absolument aucune raison de penser que la situation n'évolue pas, bien au contraire. Au cours des derniers mois, on a eu des preuves très concrètes, très documentées, et parfaitement vérifiables, des performances littéralement "surhumaines" de la prochaine génération de LLM (OpenAI pour les maths, Anthropic pour les failles de sécurité). Est-ce que de telles preuves sont en mesure de te faire changer d'avis? Normalement, elles feraient changer d'avis toute personne rationnelle. La résolution d'un des 10 problèmes majeurs d'Erdös ne peut que faire changer d'avis quelqu'un qui comprend ce dont il s'agit. Si tu ne sais pas ce dont il s'agit, va lire les réactions des meilleurs mathématiciens du monde. Mais toi, tu écris "ahah, tu dois travailler avec des humains un peu nuls". Franchement, j'ai l'impression de parler à un climatosceptique bloqué sur le mode "oui bon c'est l'été, il faut chaud".

Répondre
[^] # Re: Syndrome de la Tourette

Posté par arnaudus le 25 juin 2026 à 12:14. En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à 3 (+0/-0).

Ça existait déjà avant le boom des LLMs (cf. Deepl) avec des modèles bien moins énergivores.

Deepl c'est de l'IA, deep learning sur un gros corpus de texte, je ne suis pas sûr que tu puisses sauter directement à une conclusion sur le coût écologique respectif des deux approches. Les performances restent très différentes (par exemple, Deepl n'est pas promptable, tu ne peux pas lui donner des instructions sur le style, etc).

Mais il me semble que c’est une part minime de l’usage des LLMs à qui les utilisateurs préfèrent déléguer leur intelligence par flemme et/ou par bêtise.

C'est faux, et tu le sais. Tu pourrais répondre ça à n'importe quel usage utile d'un LLM, donc je ne vois pas où ça n'amène.

La gestion des bugs et des failles de sécurité dans le code, les LLM modernes sont plus performants, plus fiables, et plus rapides que les humains. Vouloir gérer ça "à la main" c'est la même chose que de faire la vaisselle à la main au lieu d'acheter un lave vaisselle : c'est une démarche idéologique, que tu as le droit de défendre, mais c'est faux de prétendre que c'est "mieux fait" ou que c'est de la flemme (à moins de considérer par essence que tout gain de productivité c'est de la flemme). Au passage, ton humain il mange, il pollue, il chauffe l'hiver et climatise l'été, il se déplace, etc., et son bilan environnemental n'est pas jojo; comme il doit bosser 15 jours pour faire moins bien ce que Claude fait en 10 minutes, pas sûr que le bilan de l'humain soit si positif que ça…

La fois où j’avais vu passer un truc comme ça, le LLM n’avais fait qu’une part minime du travail, laissant le travail à une IA spécialisée dans ce genre de taches.

Tu n'as pas suivi l'actualité.

https://www.reddit.com/r/math/comments/1tj534d/openais_internal_model_disproves_unit_distance/

De nombreuses sommités en maths sont sur le cul, des médailles Field ont clairement écrit que leur monde avait subitement changé.

https://mathoverflow.net/questions/511484/is-this-an-even-worse-moment-for-a-math-career

Et le pire, c'est que ça n'est pas une IA spécialisée qui a résolu un problème majeur en maths, c'est la prochaine version grand public d'OpenAI.

Je pense qu'on n'a pas réalisé à quel point ce truc était gros. C'est vraiment un écrabouillement définitif de l'argument du perroquet stochastique.

Dans le domaine scientifique, ça permet surtout à quelques profiteurs de se lancer dans l’IA en monopolisant les capacités de calcul et les financements des labos sans jamais obtenir de résultats particulièrement intéressants

Désolé, mais ça, ça ressemble à de la fumisterie. Si tu ne sais pas, ça n'est pas grave, mais on devrait tous laisser à Donald Trump l'exclusivité de l'invention d'un monde imaginaire qui colle à son idéologie, sans considération pour la réalité.

L'AI a déja radicalement transformé la recherche scientifique dans de nombreux domaines, en fournissant des outils pour des tâches qui jusqu'ici étaient soit extrêmement chronophages (typiquement, la segmentation d'images ou de volumes, le tracking vidéo…), soit totalement impossibles (la prédiction de la structure 3D des protéines). D'une manière générale, il y a peu de disciplines où on ne fait pas d'analyse d'image, d'analyses statistiques non-linéaires, de prédiction de structure moléculaire, qui sont des domaines où les algorithmes de machine learning sont dorénavant incontournables. Si tu rajoutes maintenant le fait que les LLM savent faire l'intermédiaire entre un énoncé en langage naturel et un assistant de preuve, tu rajoutes les maths et la modélisation; dans quelques années il ne restera plus beaucoup de recherche scientifique qui n'utilisera pas un algo IA quelque part dans l'analyse.

Répondre
[^] # Re: Syndrome de la Tourette

Posté par arnaudus le 24 juin 2026 à 13:55. En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à 1 (+1/-3).

Mais oui il y a des usages pertinents des LLM comme heu…

La traduction automatique dans n'importe quelle langue?

Les filtres à spams / arnaques?

La modération automatique des contenus pédonazis avant qu'un humain ne tombe dessus?

Le remplissage automatique de formulaires et le guide dans les démarches administratives pour défendre ses droits?

La détection de bugs et de failles de sécurité qui sont passés à travers les revues de code?

La résolution de problèmes mathématiques qui ont résisté aux meilleurs humains depuis un siècle?

Et là, le critère n'est pas "économiquement pertinent". C'est "socialement pertinent", dans le sens où ça serait tout bonnement impossible d'avoir de tels services sans les LLM.

Si la question est étendue aux IA spécialisées, alors tous les domaines scientifiques peuvent en bénéficier (et en bénéficient déja largement).

Répondre