Justement, je pense que ça n'est pas mon cas; on n'avait pas de minitel à la maison et mon stage en entreprise, c'était à la fin des années 1990, donc 15 ans après la fin de la production des terminaux ABCDE d'après Wikipédia.
Le faux souvenir reste une possibilité.
Par contre, indépendamment, je me rappelle aussi au collège avoir manipulé ces claviers d'ordinateur avec ces espèces de petites touches molles en caoutchouc, qu'il faut enfoncer vigoureusement, qui se coincent en bas et qu'il faut décoincer avec l'ongle… Qui a bien pu avoir l'idée saugrenue de produire des claviers de cette manière?
Pour les minitel, les derniers, si je me souviens bien, avaient des touches dures, mais qui n'étaient pas guidées dans leur mouvement, ce qui fait que si on n'appuyait pas bien au centre elles s'enfoncent inclinées parce que le ressort est au milieu, avec des effets plus ou moins prévisibles sur la frappe. C'était pas top, mais mieux que les touches en caoutchouc.
Du coup, j'ai l'impression qu'on a une incohérence : tout le monde de cette génération ou presque se rappelle avoir eu ou utilisé un minitel à clavier alphabétique, mais les sources semblent indiquer qu'ils n'ont quasiment pas été produits car remplacés très rapidement par des claviers AZERTY. Comment est-ce possible? On n'a pas tous été en contact avec des pré-séries du début des années 1980.
C'est marrant, c'est bien ce que disent les sources, mais j'ai le souvenir très net d'un stage en entreprise vers la fin des années 1990 où on m'avait refilé un minitel à clavier ABCD (avec des touches en caoutchouc très dures à enfoncer, ce qui oblige à taper à deux doigts, tout lentement). J'ai l'impression que les claviers ABCD avaient été diffusés plus largement que ce que l'article de Wikipédia suggère ("ils ont été rapidement remplacés par des claviers AZERTY"), peut-être dans les réseaux professionnels? L'équipement des particuliers en minitel a été tardif, mais certains professionnels ont peut-être gardé le matériel de 1982 jusque vers les années 2000?
Si tu n'arrives pas à détecter l'IA générative même quand c'est évident, tu cliques sur la description de la vidéo, et il y a marqué "Made with AI / Sounds or visuals were altered or fully generated.". Donc c'est même renseigné dans les métadonnées.
Après, pour le ratel… La vidéo en fait des tonnes, évidemment. Les mustélidés sont des animaux fascinants, mais tous ceux qu'on appelle "blaireaux" (ce n'est pas un groupe biologique bien défini) ont à peu près les mêmes caractéristiques (poids, taille, agressivité, robustesse, etc). C'est sûr que le blaireau Européen est moins souvent confronté à des troupeaux de hyènes que le blaireau Africain :-) Les petits mustélidés (martres, fouines, etc) sont aussi très intelligents et très robustes.
Il y a à peu près 5000 espèces de mammifères, ce qui est bien c'est que l'IA peut probablement faire 5000 vidéos d'une heure qui vont t'occupper un bon moment :-)
Je ne pense pas que ces entreprises aient le moindre intérêt à préserver et à conserver les bouquins qu'elles numérisent : elles vont au plus rapide et au plus efficace, même si la méthode est destructive.
Au final, on ne sait même pas si la destruction est volontaire ou si elle est inévitable dans le process de numérisation. C'est difficile d'en conclure quoi que ce soit en terme de fair use.
Déja, sortir une vidéo d'une heure par jour, c'est quand même un rythme littéralement surhumain.
Ensuite, si tu avais seulement visionné quelques minutes de cette vidéo, tu auras rapidement réalisé qu'elle ne contenait que peu d'informations. Il s'agit d'une longue diarrhée verbale répétitive agrémentée d'un diaporama avec des photos random qui bougent lentement.
Pour encore quelques mois/années, il est assez facile par ailleurs de détecter le côté "artificiel" dans la voix du narrateur, quelque chose qui n'est pas naturel et trop répétitif dans le ton.
Pour répondre à ta question, c'est donc très clairement une vidéo générée par IA. Je ne sais pas comment quantifier, c'est 100% une vidéo générée par IA, mais c'est difficile de déterminer la quantité de prompts et d'intervention humaine. Il ne semble pas impossible qu'avec une IA générative moderne, tu puisses avoir une telle vidéo d'un bloc à partir d'un seul prompt, mais certains indices me semblent pousser vers un montage un peu plus fin; en particulier, le registre de langage change en fonction des parties de la vidéo (certaines sont assez familières et tutoient le spectateur, d'autres sont très formelles), ce qui me fait penser que l'auteur du truc aurait pu demander "refais cette partie avec un langage plus simple", ou quelque chose comme ça.
J'ai quand même deux vraies questions:
1) Est-ce que tu es naïf au point d'avoir regardé la vidéo et ne pas avoir détecté que c'était de l'AI slop, ou bien tu nous prends pour des imbéciles?
2) Si c'est la première option, quelle est la raison qui te motive à faire la pub d'une vidéo? Wikipédia a un article sur le ratel qui contient 10 fois plus d'informations que cette vidéo soporifique, pourquoi privilégier un tel support?
Évidemment, je trouve la possibilité de la naïveté assez terrifiante. Si tu n'arrives pas à détecter l'AI slop dans ce cas, comment vas-tu faire pour trier les informations, décider pour qui voter, te faire une opinion personnelle sur la politique internationale, le changement climatique, le logiciel libre, etc? Si tu ne veux pas te retrouver à 30 ans sur un bucher cosmique transcendental après avoir donné toutes tes possessions terrestres à Raël-Skippy le grand Gourou, il faut savoir un minimum se protéger du bullshit (sachant que même les gens vigilants peuvent quand même se faire avoir).
Vu qu'on parle de droit US que personne d'entre nous ne comprend, et de "on dit que", "il paraitrait que", "j'ai entendu dire que", à mon avis, il y a peu de chance qu'une compréhension profonde des enjeux émerge de cette discussion.
Ce qu'on peut retenir, c'est qu'en attendant une jurisprudence claire, les boîtes qui entrainent des modèles prennent quelques précautions. Comme tu l'évoques, à mon avis, la destruction des livres n'a rien d'une protection juridique, c'est surtout un truc pratique: il est absurde de garder les livres physiques après numérisation, sauf si la version numérisée est détruite. C'est probablement économiquement absurde de renumériser un livre physique à chaque entrainement de modèle, donc ça semble rationnel de ne garder que la version numérisée.
Même avec les différences notables entre les systèmes européens et US, il y a un point qui semble largement incompris dans ces discussions : ce qui est illégal, c'est la contrefaçon, le fait de diffuser une version sans l'autorisation de l'auteur. À l'inverse, garder une copie à usage interne n'est pas de la contrefaçon; en droit européen c'est une copie privée, qui est autorisée sous certaines conditions; en droit US ça peut rentrer dans le "fair use". Donc ces histoires de copies numériques, ça me semble très très secondaire par rapport au problème central, qui est de savoir si l'entrainement de réseaux de neurones est susceptible d'entrainer la publication de contrefaçons. La jurisprudence établit clairement que ça n'est pas le cas pour les cerveaux biologiques: les auteurs des livres qu'on a lu ne sont pas mécaniquement considérés comme les auteurs des livres qu'on écrit nous-mêmes, il faut des éléments de ressemblance manifestes pour que la contrefaçon soit établie. Pour les LLM, la situation n'est pas juridiquement claire. Si les juges considèrent que le réseau "transforme" l'oeuvre (ce qui est techniquement le cas, puisque les réseaux de neurones ne copient pas textuellement les entrées), l'usage peut s'apparenter au fair use, et c'est peut-être dans ce cas spécifique où une victoire secondaire via l'argument de la copie interne des oeuvres originales pourrait être recherchée (bien maigre victoire, à mon avis).
Sur le fond, pour être honnête, c'est seulement une histoire d'argent. Quel éditeur de livre voudrait que les modèles grand public ne soient pas entrainés dessus? Qui pourrait me faire avaler que Guillaume Musso puisse vouloir que ChatGPT réponde "je ne peux rien vous dire à propos des livres de cet auteur" quand on lui demande "qui a tué Machin dans tel livre"? C'est de la blague, la très grande majorité des auteurs et éditeurs ne peut que souhaiter que les LLM aient "lu" leurs livres, pour répondre aux questions de leurs lecteurs, pour en conseiller l'achat, etc. Ce qui se passe, c'est qu'ils veulent toucher une part de gâteau, possiblement parce qu'ils voient arriver la possibilité que la prochaine génération de LLM soit capable de produire à l'infini de la littérature tout à fait acceptable dans certains styles peu qualitatifs (romans de gare, romans à l'eau de rose, etc).
Sans source fiable, ça ressemble sacrément à une légende urbaine quand même. Même si les budgets des entreprises dont on parle sont colossaux, il faut bien garder à l'esprit que cette histoire ne sert qu'à éviter de négocier des droits spécifiques avec les éditeurs.
En ordre de grandeur, les invendus représentent > 20% de la production en France. Le marché du livre est de l'ordre de grandeur de 120Mrds de $ dans le monde, donc le rachat de stocks ça serait environ 20 Mrds par an, ça m'étonnerait que les actionnaires soient d'accord :-)
J'ai aussi oublié un argument important : remplir des pages avec des sorties de LLM, c'est gaver le web avec des informations redondantes, ce qui ne peut mener à rien de bon. C'est bien entendu aux entraineurs de modèles de filtrer la qualité des entrées plutôt que de leur refiler des teratonnes de merdouille random, mais tout le monde, robots comme humains, ne peuvent que bénéficier d'un web qui contienne un minimum de contenu original… Paradoxalement, il n'y aura bientôt plus que les IA qui auront les capacités de retrouver la source réelle d'une information à partir d'un océan de texte généré…
En fait, il faut réaliser un truc : n'importe qui sait utiliser un LLM. Bon, c'est vrai que ça dépend de la taille du projet, parce que ça peut coûter de l'argent etc, mais sur le fond, c'est vrai.
Ce que ça veut dire, c'est que demander à un LLM de compiler plusieurs Mo de données, de mettre en place un site interactif avec une carte, du texte, des analyses, etc., c'est probablement quelque chose qui ne sert pas à grand chose. À commencer parce que les infos deviennent vite obsolètes, que l'ergonomie du site est au mieux perfectible (cliquer sur un pays donne accès à un texte indigeste qu'il faut scroller…), et que dans l'ensemble ça reste invérifiable.
Maintenant, compare à l'alternative beaucoup plus simple : demander soi-même à un LLM avec des informations précises (quand, où, opérateur actuel, type de consommation). Tu auras une réponse rapide et contextualisée, que tu pourras raffiner autant que tu veux, avec des demandes spécifiques (est-ce qu'en considérant les frais de résiliation ça vaut quand même le coup de changer d'opérateur, etc).
Je ne sais pas si c'est encore clair pour tout le monde qu'on peut difficilement être utile en interrogeant un LLM à l'avance à la place des gens. Est-ce que par exemple tu trouverais utile un site qui compile toutes les requêtes Google possibles à partir d'un seul mot du dictionnaire? Probablement pas. Bah là c'est le même principe. Je pense qu'il est bien établi que la plupart des gens consultent des LLM pour tout et n'importe quoi, surtout n'importe quoi, et parfois pour des questions dont personne de ma génération n'envisagerait de poser à un LLM ("pour qui voter", etc). Ils n'ont pas besoin de passer par une interface complexe qui sert de cache à des requêtes LLM.
Pour ton projet en particulier, la clé n'est pas l'interface (qui à mon avis est assez confuse, par exemple, pourquoi une carte? C'est plus simple de taper "Ouzbekistan" que de chercher l'Ouzbekistan sur une carte…), mais les données. Et malheureusement, la base de données semble très mal faite : des blocs de texte donnant des infos hétérogènes, pas de date de consultation, pas d'URL indiquant la source, pas de possibilité de faire des recherches croisées… Maintenir une BDD actualisée et "curée" manuellement, ça c'est du boulot; après, de nombreux robots pourraient se brancher dessus.
Les gens n'ont pas attendu les LLM pour introduire des bugs…
Il y a également toute une disparité de performances de code parmi les LLM, j'imagine qu'il est quand même largement raisonnable que les perfs vont s'améliorer, et que les LLM spécialisés dans le code vont progresser. Un système conçu autour d'agents avec des tâches spécifiques sont organisés pour gérer les intégrations, les tests unitaires, les tests statiques, etc., ce qui est très très différent de Jean-Machin qui push un javascript pondu par ChatGpt grand public…
Je suis certain que les grandes entreprises bien organisées ont un monitoring très précis des taux d'erreur et des procédures adaptées (quand faire intervenir un humain, etc), mais c'est probablement assez confidentiel, comme information.
"La gestion des bugs et des failles de sécurité dans le code, les LLM modernes sont plus performants, plus fiables, et plus rapides que les humains."
Pour le "plus rapide", il n'y a même pas à discuter.
Plus performant, il n'y a qu'à compiler les réactions des devs des projets libres. Par exemple, Daniel Stenberg, le mainteneur de curl:
"Over the last few months, we have stopped getting AI slop security reports in the curl project. They're gone. Instead we get an ever-increasing amount of really good security reports, almost all done with the help of AI. They're submitted in a never-before seen frequency and put us under serious load. I hear similar witness reports from fellow maintainers in many other Open Source projects."
Maintenant, si ça te fais plaisir de rester dans le déni parce que tu préfères rester quelques semaines de plus dans une bulle imaginaire où les LLM n'explosent pas les humains sur une quantité grandissante de tâches, eh bien reste dans ta bulle. Je suis certain qu'il peut exister pendant très longtemps des petits groupes de discussion complotistes où les gens vont se gloser, "ah regardez-moi tous ces cons avec leurs perroquets stochastiques, quels pigeons qui ne comprennent pas qu'ils se font arnaquer; toutes ces entreprises qui investissent dans l'AI, que des cons", etc. Mais nier une réalité que tu n'aimes pas ne l'empêche pas d'exister : les performances des LLM évoluent très (trop) rapidement.
Bref, oui, les LLM de 2023, c'était des jouets. Il n'y a absolument aucune raison de penser que la situation n'évolue pas, bien au contraire. Au cours des derniers mois, on a eu des preuves très concrètes, très documentées, et parfaitement vérifiables, des performances littéralement "surhumaines" de la prochaine génération de LLM (OpenAI pour les maths, Anthropic pour les failles de sécurité). Est-ce que de telles preuves sont en mesure de te faire changer d'avis? Normalement, elles feraient changer d'avis toute personne rationnelle. La résolution d'un des 10 problèmes majeurs d'Erdös ne peut que faire changer d'avis quelqu'un qui comprend ce dont il s'agit. Si tu ne sais pas ce dont il s'agit, va lire les réactions des meilleurs mathématiciens du monde. Mais toi, tu écris "ahah, tu dois travailler avec des humains un peu nuls". Franchement, j'ai l'impression de parler à un climatosceptique bloqué sur le mode "oui bon c'est l'été, il faut chaud".
Ça existait déjà avant le boom des LLMs (cf. Deepl) avec des modèles bien moins énergivores.
Deepl c'est de l'IA, deep learning sur un gros corpus de texte, je ne suis pas sûr que tu puisses sauter directement à une conclusion sur le coût écologique respectif des deux approches. Les performances restent très différentes (par exemple, Deepl n'est pas promptable, tu ne peux pas lui donner des instructions sur le style, etc).
Mais il me semble que c’est une part minime de l’usage des LLMs à qui les utilisateurs préfèrent déléguer leur intelligence par flemme et/ou par bêtise.
C'est faux, et tu le sais. Tu pourrais répondre ça à n'importe quel usage utile d'un LLM, donc je ne vois pas où ça n'amène.
La gestion des bugs et des failles de sécurité dans le code, les LLM modernes sont plus performants, plus fiables, et plus rapides que les humains. Vouloir gérer ça "à la main" c'est la même chose que de faire la vaisselle à la main au lieu d'acheter un lave vaisselle : c'est une démarche idéologique, que tu as le droit de défendre, mais c'est faux de prétendre que c'est "mieux fait" ou que c'est de la flemme (à moins de considérer par essence que tout gain de productivité c'est de la flemme). Au passage, ton humain il mange, il pollue, il chauffe l'hiver et climatise l'été, il se déplace, etc., et son bilan environnemental n'est pas jojo; comme il doit bosser 15 jours pour faire moins bien ce que Claude fait en 10 minutes, pas sûr que le bilan de l'humain soit si positif que ça…
La fois où j’avais vu passer un truc comme ça, le LLM n’avais fait qu’une part minime du travail, laissant le travail à une IA spécialisée dans ce genre de taches.
Et le pire, c'est que ça n'est pas une IA spécialisée qui a résolu un problème majeur en maths, c'est la prochaine version grand public d'OpenAI.
Je pense qu'on n'a pas réalisé à quel point ce truc était gros. C'est vraiment un écrabouillement définitif de l'argument du perroquet stochastique.
Dans le domaine scientifique, ça permet surtout à quelques profiteurs de se lancer dans l’IA en monopolisant les capacités de calcul et les financements des labos sans jamais obtenir de résultats particulièrement intéressants
Désolé, mais ça, ça ressemble à de la fumisterie. Si tu ne sais pas, ça n'est pas grave, mais on devrait tous laisser à Donald Trump l'exclusivité de l'invention d'un monde imaginaire qui colle à son idéologie, sans considération pour la réalité.
L'AI a déja radicalement transformé la recherche scientifique dans de nombreux domaines, en fournissant des outils pour des tâches qui jusqu'ici étaient soit extrêmement chronophages (typiquement, la segmentation d'images ou de volumes, le tracking vidéo…), soit totalement impossibles (la prédiction de la structure 3D des protéines). D'une manière générale, il y a peu de disciplines où on ne fait pas d'analyse d'image, d'analyses statistiques non-linéaires, de prédiction de structure moléculaire, qui sont des domaines où les algorithmes de machine learning sont dorénavant incontournables. Si tu rajoutes maintenant le fait que les LLM savent faire l'intermédiaire entre un énoncé en langage naturel et un assistant de preuve, tu rajoutes les maths et la modélisation; dans quelques années il ne restera plus beaucoup de recherche scientifique qui n'utilisera pas un algo IA quelque part dans l'analyse.
Mais oui il y a des usages pertinents des LLM comme heu…
La traduction automatique dans n'importe quelle langue?
Les filtres à spams / arnaques?
La modération automatique des contenus pédonazis avant qu'un humain ne tombe dessus?
Le remplissage automatique de formulaires et le guide dans les démarches administratives pour défendre ses droits?
La détection de bugs et de failles de sécurité qui sont passés à travers les revues de code?
La résolution de problèmes mathématiques qui ont résisté aux meilleurs humains depuis un siècle?
Et là, le critère n'est pas "économiquement pertinent". C'est "socialement pertinent", dans le sens où ça serait tout bonnement impossible d'avoir de tels services sans les LLM.
Si la question est étendue aux IA spécialisées, alors tous les domaines scientifiques peuvent en bénéficier (et en bénéficient déja largement).
Ce n'est pas "dur" que l'humain surveille, c'est inefficace et non-fiable. Inefficace parce qu'avec un surveillant pour 20 ou 30 élèves, c'est à la portée de tout le monde de tricher quand le surveillant regarde ailleurs, et non-fiable parce que le risque de faux positif demeure élevé, et qu'il existe surtout des formes de triche virtuellement ou légalement indétectables. Certains consultent leur téléphone quand ils vont aux toilettes, d'autres ont un système d'oreillette. La fouille est interdite, le contact physique également, les surveillants n'ont pas les moyens techniques de confirmer une suspicion, c'est donc une tâche impossible.
En particulier, le texte revient plusieurs fois sur une énième déclinaison de l'argument du perroquet stochastique (les LLM sont incapables d'originalité, ils manipulent des mots mais pas des concepts, etc), qui était déja compliqué à défendre en 2023. Il faut vraiment ignorer tout des capacités des modèles récents pour continuer sur une telle ligne… Tiens, on a d'ailleurs très peu parlé de la résolution par le successeur de ChatGPT grand public d'un des problèmes d'Erdös les plus importants (https://les-mathematiques.net/vanilla/discussion/2342473/une-ia-dopenai-refute-une-conjecture-derdoes-unit-distance-conjecture).
Ce genre de texte est une dystopie : il force la réalité dans une grille de lecture pré-établie par l'auteur, sans aucune considération pour les contorsions et écarts à la logique élémentaire et au rapport à la vérité qu'il faut accepter pour le faire.
Moi j'ai l'impression que les diatribes anti-IA deviennent un défouloir dans lequel on décharge des charrettes de haine technophobe, sans considération particulière sur la qualité des arguments ou la véracité des faits.
Là, on a tout un gloubiboulga d'arguments accumulés sans trop de logique : les élèves trichent avec l'IA, les profs utilisent l'IA pour corriger ou pour concevoir des sujets, les décideurs qui parlent de l'IA à l'école sont des bouffons ridicules, les sanctions contre les tricheurs sont inefficaces, le grand oral amène certains à apprendre leur texte par coeur et à ne pas réflechir, pof, tout ça est déposé en vrac comme un clodo dépose la 8-6 de trop sur le trottoir, et si t'es pas convaincu c'est que tu es un suppôt du grand capital.
J'ai parfois l'impression que la simple mention de "LLM" donne chez certains des crises d'urticaire ou une volonté irrépressible de murmurer des flots d'insultes… Il y a quand même un problème médical, ça n'est pas possible d'en arriver là.
Je veux bien que certains s'inquiètent pour les conséquences environnementales des data centers, ou même s'inquiètent pour la pérennité ou le sens de leur métier, mais depuis quand de telles inquiétudes légitimes sont-elles censées justifier de raconter n'importe quoi?
En tout cas, je trouve assez cocasse que ceux-là même qui dénient aux LLM toute forme d'intelligence marginale, ne voient aucune contradiction avec l'idée qu'ils puissent composer un sujet de bac de philosophie avec brio, sans aucun moyen de pouvoir prouver l'origine "artificielle" de la copie. On a aussi le couplet sur la justice laxiste (mais que fait la police?), et sur le pauvre enseignant qui n'a même plus le droit de saquer de manière discrétionnaire un élève qu'il trouve indigne du niveau de sa copie… Dans quelle mesure ça n'est pas une énième incarnation des vieux qui prétendent que "c'était mieux avant"?
Le brouilleur c'est complexe; il faut une autorisation pour émettre, ça pose des problèmes de sécurité (par exemple pour appeler les secours), et ça bloque les utilisations légitimes (dans un établissement, il y a tout un tas de gens qui peuvent utiliser leur téléphone mobile, à commencer par les surveillants qu'il faut pouvoir joindre pour leur dire d'annoncer qu'il y a une typo à l'exercice 3 ou qu'il faut distribuer le sujet B).
Il semble beaucoup plus pragmatique d'utiliser un détecteur. Ça coûte dans les 500€, ça peut même détecter les téléphones éteints, et le plus simple est de le passer sur les élèves quand ils rentrent dans la salle un par un (ce qui éviter un protocole de recherche et de fouille si on trouve un signal au cours d'une épreuve).
Mais c'est comme tout. Il faut une volonté institutionnelle, une capacité de mettre en place et d'appliquer un protocole, et un budget, choses qui sont totalement hors de portée de l'éducation nationale.
Sans connaitre les raisons qui ont justifié la rédaction de ce guide, c'est difficile à dire. J'ai du mal à voir comment un exercice d'un tel cynisme pourrait valider une quelconque démarche éthique.
À quand le guide des nazis à destination des enfants Juifs? "Tu vas faire un grand voyage en train", "À l'arrivée, les organisateurs du camp te mettront avec des copains de ton âge", "les plus costauds d'entre vous auront la chance de travailler pour le plus beau pays du monde", "Les règles d'hygiène sont strictes, quand tu entendras 'à la douche', c'est à ton tour!". Et hop, un point EthicalGodwin!
Ce que je trouve sidérant, ce n'est pas d'expulser des étrangers en situation irrégulière, ni d'écrire un guide, mais c'est le niveau de cynisme des gens qui l'ont conçu : qu'est-ce que ça pouvait bien leur faire, une fois le principe accepté, d'écrire "Dans ton pays, la vie ne sera peut-être pas facile, tu pourras être confronté à la guerre, à la pauvreté, ou à la violence.". Quel degré de pourriture faut-il pour oser écrire "Tu pourras vivre de nouvelles expériences"?
Le projet donne deux informations conflictuelles sur la réutilisation du code. La licence MIT dit "Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files, to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software", alors que le README dit "Il est formellement interdit à tout autre acteur d’utiliser le Système de Design de l’État (les administrations territoriales ou tout autre acteur privé) pour des sites web ou des applications.". C'est parfaitement contradictoire, et même si la nuance est liée au droit des marques et l'usurpation de l'identité de l'État, c'est extrêmement confus.
Le minimum serait de (i) clairement stipuler la liste des éléments graphiques qui représentent l'État (logos, polices, fichiers de style…), de les isoler et de les diffuser sous une licence différente, et (ii) de reformuler l'avertissement de manière à clairement informer que le fait que le code soit libre n'autorise personne à héberger un site web pouvant se faire passer pour l'État.
De facto, je pense que la justice pourrait considérer que la diffusion sous licence libre d'éléments graphiques identifiant une marque pourrait être équivalent à un renoncement à protéger la marque…
Ce n'est pas ce que Wikipédia appelle "une source centrée". Linuxfr est cité, mais ce n'est pas un article sur Linuxfr.
En pratique, quelle information de l'article sur Linuxfr pourrait être confirmée par cette source, à part que Linuxfr serait un forum de discussion, ce qui est faux?
Pour une encyclopédie traditionnelle, le système passe par l'argument d'autorité; les articles sont écrits par des spécialistes qui représentent l'état des connaissances. C'est d'ailleurs comme ça qu'avaient été conçues les tentatives qui ont précédé Wikipédia, avec un échec flagrant dû au faible nombre de participants et à la tâche surhumaine qui leur était confiée personnellement.
Le succès de Wikipédia est construit sur le principe fondateur de la neutralité de point de vue et des sources fiables. Si tu écris "Linux est le meilleur OS", quelqu'un va le corriger en "Hurd est le meilleur OS", et ça va mal finir. Si tu écris "en 2020 Linux a été désigné meilleur OS par le site Linuxfr", c'est factuel, tout le monde peut être d'accord là-dessus. Cette histoire de sources est donc indissociable du fonctionnement de Wikipédia, et en particulier, quand il n'y a pas de sources, il ne peut pas y avoir d'article.
Le niveau de détestation de Wikipédia par une partie de la communauté me surprend quand même réellement. Il me semble bien plus aisé de contribuer à Wikipédia qu'à n'importe quel projet libre!
La question de la bibliographie des scientifiques est posée depuis longtemps sur Wikipédia, sans avoir de réponse claire. Le travail des scientifiques étant de publier des livres et des articles, parfois par centaines au cours d'une carrière, l'établissement de listes bibliographies exhaustives ne relève pas du travail encyclopédique. Le critère compte d'éditeur / compte d'auteur peut paraitre arbitraire, mais c'est un moyen simple de trier la production courante des ouvrages à portée plus grande (étant donné qu'un éditeur a accepté d'investir dessus, il a forcément trouvé un potentiel de diffusion à l'ouvrage).
J'imagine que ce qui a motivé le "nettoyage" de la liste, c'est une suspicion d'auto-promotion. La liste ne proposait pas un travail de synthèse, avec une sélection de quelques livres majeurs, mais une liste exhaustive d'ouvrages plus ou moins confidentiels.
Et oui, pour l'auto-édition, c'est très souvent une spécialité de certains éditeurs, et en tout cas, les collections sont séparées. Il n'y a donc que peu de doutes sur le fait qu'un ouvrage est auto-édité.
Retirer les éléments d'auto-promotion d'une biographie, c'est le même principe que de retirer les failles de sécurité potentielles d'un bout de code, ou de formatter le code conformément aux règles du projet. C'est un boulot de nettoyage et de conformité, qui est rendu nécessaire par l'ouverture de l'édition de Wikipédia à tous. L'éditeur de Wikipédia n'est pas plus malveillant que le mainteneur d'un projet libre qui refuse un pull request.
[^] # Re: Téléphone rose pas cher
Posté par arnaudus . En réponse au message Téléphone rose pas cher, quelqu'un a testé ça sous Linux ?. Évalué à 3 (+0/-0). Dernière modification le 02 juillet 2026 à 13:17.
Justement, je pense que ça n'est pas mon cas; on n'avait pas de minitel à la maison et mon stage en entreprise, c'était à la fin des années 1990, donc 15 ans après la fin de la production des terminaux ABCDE d'après Wikipédia.
Le faux souvenir reste une possibilité.
Par contre, indépendamment, je me rappelle aussi au collège avoir manipulé ces claviers d'ordinateur avec ces espèces de petites touches molles en caoutchouc, qu'il faut enfoncer vigoureusement, qui se coincent en bas et qu'il faut décoincer avec l'ongle… Qui a bien pu avoir l'idée saugrenue de produire des claviers de cette manière?
Pour les minitel, les derniers, si je me souviens bien, avaient des touches dures, mais qui n'étaient pas guidées dans leur mouvement, ce qui fait que si on n'appuyait pas bien au centre elles s'enfoncent inclinées parce que le ressort est au milieu, avec des effets plus ou moins prévisibles sur la frappe. C'était pas top, mais mieux que les touches en caoutchouc.
[^] # Re: Téléphone rose pas cher
Posté par arnaudus . En réponse au message Téléphone rose pas cher, quelqu'un a testé ça sous Linux ?. Évalué à 3 (+0/-0).
Du coup, j'ai l'impression qu'on a une incohérence : tout le monde de cette génération ou presque se rappelle avoir eu ou utilisé un minitel à clavier alphabétique, mais les sources semblent indiquer qu'ils n'ont quasiment pas été produits car remplacés très rapidement par des claviers AZERTY. Comment est-ce possible? On n'a pas tous été en contact avec des pré-séries du début des années 1980.
[^] # Re: Téléphone rose pas cher
Posté par arnaudus . En réponse au message Téléphone rose pas cher, quelqu'un a testé ça sous Linux ?. Évalué à 3 (+0/-0).
C'est marrant, c'est bien ce que disent les sources, mais j'ai le souvenir très net d'un stage en entreprise vers la fin des années 1990 où on m'avait refilé un minitel à clavier ABCD (avec des touches en caoutchouc très dures à enfoncer, ce qui oblige à taper à deux doigts, tout lentement). J'ai l'impression que les claviers ABCD avaient été diffusés plus largement que ce que l'article de Wikipédia suggère ("ils ont été rapidement remplacés par des claviers AZERTY"), peut-être dans les réseaux professionnels? L'équipement des particuliers en minitel a été tardif, mais certains professionnels ont peut-être gardé le matériel de 1982 jusque vers les années 2000?
[^] # Re: Sic
Posté par arnaudus . En réponse au lien Connaissez-vous le ratel ?. Évalué à 3 (+0/-0).
C'est la même vidéo.
Si tu n'arrives pas à détecter l'IA générative même quand c'est évident, tu cliques sur la description de la vidéo, et il y a marqué "Made with AI / Sounds or visuals were altered or fully generated.". Donc c'est même renseigné dans les métadonnées.
Après, pour le ratel… La vidéo en fait des tonnes, évidemment. Les mustélidés sont des animaux fascinants, mais tous ceux qu'on appelle "blaireaux" (ce n'est pas un groupe biologique bien défini) ont à peu près les mêmes caractéristiques (poids, taille, agressivité, robustesse, etc). C'est sûr que le blaireau Européen est moins souvent confronté à des troupeaux de hyènes que le blaireau Africain :-) Les petits mustélidés (martres, fouines, etc) sont aussi très intelligents et très robustes.
Il y a à peu près 5000 espèces de mammifères, ce qui est bien c'est que l'IA peut probablement faire 5000 vidéos d'une heure qui vont t'occupper un bon moment :-)
[^] # Re: Y’a une raison physique
Posté par arnaudus . En réponse au lien Des entreprises d'IA rachètent d'anciens livres, les numérisent puis les détruisent. Évalué à 3 (+0/-0).
Je ne pense pas que ces entreprises aient le moindre intérêt à préserver et à conserver les bouquins qu'elles numérisent : elles vont au plus rapide et au plus efficace, même si la méthode est destructive.
Au final, on ne sait même pas si la destruction est volontaire ou si elle est inévitable dans le process de numérisation. C'est difficile d'en conclure quoi que ce soit en terme de fair use.
[^] # Re: Blaireau !
Posté par arnaudus . En réponse au lien Connaissez-vous le ratel ?. Évalué à 3 (+0/-0).
Un jour, j'ai caressé un hérisson, don't try this at home non plus. Si ça c'était infecté, j'aurais bien mérité un Darwin award.
[^] # Re: Sic
Posté par arnaudus . En réponse au lien Connaissez-vous le ratel ?. Évalué à 4 (+1/-0).
Déja, sortir une vidéo d'une heure par jour, c'est quand même un rythme littéralement surhumain.
Ensuite, si tu avais seulement visionné quelques minutes de cette vidéo, tu auras rapidement réalisé qu'elle ne contenait que peu d'informations. Il s'agit d'une longue diarrhée verbale répétitive agrémentée d'un diaporama avec des photos random qui bougent lentement.
Pour encore quelques mois/années, il est assez facile par ailleurs de détecter le côté "artificiel" dans la voix du narrateur, quelque chose qui n'est pas naturel et trop répétitif dans le ton.
Pour répondre à ta question, c'est donc très clairement une vidéo générée par IA. Je ne sais pas comment quantifier, c'est 100% une vidéo générée par IA, mais c'est difficile de déterminer la quantité de prompts et d'intervention humaine. Il ne semble pas impossible qu'avec une IA générative moderne, tu puisses avoir une telle vidéo d'un bloc à partir d'un seul prompt, mais certains indices me semblent pousser vers un montage un peu plus fin; en particulier, le registre de langage change en fonction des parties de la vidéo (certaines sont assez familières et tutoient le spectateur, d'autres sont très formelles), ce qui me fait penser que l'auteur du truc aurait pu demander "refais cette partie avec un langage plus simple", ou quelque chose comme ça.
J'ai quand même deux vraies questions:
1) Est-ce que tu es naïf au point d'avoir regardé la vidéo et ne pas avoir détecté que c'était de l'AI slop, ou bien tu nous prends pour des imbéciles?
2) Si c'est la première option, quelle est la raison qui te motive à faire la pub d'une vidéo? Wikipédia a un article sur le ratel qui contient 10 fois plus d'informations que cette vidéo soporifique, pourquoi privilégier un tel support?
Évidemment, je trouve la possibilité de la naïveté assez terrifiante. Si tu n'arrives pas à détecter l'AI slop dans ce cas, comment vas-tu faire pour trier les informations, décider pour qui voter, te faire une opinion personnelle sur la politique internationale, le changement climatique, le logiciel libre, etc? Si tu ne veux pas te retrouver à 30 ans sur un bucher cosmique transcendental après avoir donné toutes tes possessions terrestres à Raël-Skippy le grand Gourou, il faut savoir un minimum se protéger du bullshit (sachant que même les gens vigilants peuvent quand même se faire avoir).
[^] # Re: La réalité dépasse la fiction
Posté par arnaudus . En réponse au lien Des entreprises d'IA rachètent d'anciens livres, les numérisent puis les détruisent. Évalué à 1 (+1/-3).
Vu qu'on parle de droit US que personne d'entre nous ne comprend, et de "on dit que", "il paraitrait que", "j'ai entendu dire que", à mon avis, il y a peu de chance qu'une compréhension profonde des enjeux émerge de cette discussion.
Ce qu'on peut retenir, c'est qu'en attendant une jurisprudence claire, les boîtes qui entrainent des modèles prennent quelques précautions. Comme tu l'évoques, à mon avis, la destruction des livres n'a rien d'une protection juridique, c'est surtout un truc pratique: il est absurde de garder les livres physiques après numérisation, sauf si la version numérisée est détruite. C'est probablement économiquement absurde de renumériser un livre physique à chaque entrainement de modèle, donc ça semble rationnel de ne garder que la version numérisée.
Même avec les différences notables entre les systèmes européens et US, il y a un point qui semble largement incompris dans ces discussions : ce qui est illégal, c'est la contrefaçon, le fait de diffuser une version sans l'autorisation de l'auteur. À l'inverse, garder une copie à usage interne n'est pas de la contrefaçon; en droit européen c'est une copie privée, qui est autorisée sous certaines conditions; en droit US ça peut rentrer dans le "fair use". Donc ces histoires de copies numériques, ça me semble très très secondaire par rapport au problème central, qui est de savoir si l'entrainement de réseaux de neurones est susceptible d'entrainer la publication de contrefaçons. La jurisprudence établit clairement que ça n'est pas le cas pour les cerveaux biologiques: les auteurs des livres qu'on a lu ne sont pas mécaniquement considérés comme les auteurs des livres qu'on écrit nous-mêmes, il faut des éléments de ressemblance manifestes pour que la contrefaçon soit établie. Pour les LLM, la situation n'est pas juridiquement claire. Si les juges considèrent que le réseau "transforme" l'oeuvre (ce qui est techniquement le cas, puisque les réseaux de neurones ne copient pas textuellement les entrées), l'usage peut s'apparenter au fair use, et c'est peut-être dans ce cas spécifique où une victoire secondaire via l'argument de la copie interne des oeuvres originales pourrait être recherchée (bien maigre victoire, à mon avis).
Sur le fond, pour être honnête, c'est seulement une histoire d'argent. Quel éditeur de livre voudrait que les modèles grand public ne soient pas entrainés dessus? Qui pourrait me faire avaler que Guillaume Musso puisse vouloir que ChatGPT réponde "je ne peux rien vous dire à propos des livres de cet auteur" quand on lui demande "qui a tué Machin dans tel livre"? C'est de la blague, la très grande majorité des auteurs et éditeurs ne peut que souhaiter que les LLM aient "lu" leurs livres, pour répondre aux questions de leurs lecteurs, pour en conseiller l'achat, etc. Ce qui se passe, c'est qu'ils veulent toucher une part de gâteau, possiblement parce qu'ils voient arriver la possibilité que la prochaine génération de LLM soit capable de produire à l'infini de la littérature tout à fait acceptable dans certains styles peu qualitatifs (romans de gare, romans à l'eau de rose, etc).
[^] # Re: La réalité dépasse la fiction
Posté par arnaudus . En réponse au lien Des entreprises d'IA rachètent d'anciens livres, les numérisent puis les détruisent. Évalué à 6 (+3/-0).
Sans source fiable, ça ressemble sacrément à une légende urbaine quand même. Même si les budgets des entreprises dont on parle sont colossaux, il faut bien garder à l'esprit que cette histoire ne sert qu'à éviter de négocier des droits spécifiques avec les éditeurs.
En ordre de grandeur, les invendus représentent > 20% de la production en France. Le marché du livre est de l'ordre de grandeur de 120Mrds de $ dans le monde, donc le rachat de stocks ça serait environ 20 Mrds par an, ça m'étonnerait que les actionnaires soient d'accord :-)
[^] # Re: Mais pourquoi poster ça sur linuxfr ?
Posté par arnaudus . En réponse au journal Itinérance à l'étranger. Évalué à 5 (+2/-0).
J'ai aussi oublié un argument important : remplir des pages avec des sorties de LLM, c'est gaver le web avec des informations redondantes, ce qui ne peut mener à rien de bon. C'est bien entendu aux entraineurs de modèles de filtrer la qualité des entrées plutôt que de leur refiler des teratonnes de merdouille random, mais tout le monde, robots comme humains, ne peuvent que bénéficier d'un web qui contienne un minimum de contenu original… Paradoxalement, il n'y aura bientôt plus que les IA qui auront les capacités de retrouver la source réelle d'une information à partir d'un océan de texte généré…
[^] # Re: Mais pourquoi poster ça sur linuxfr ?
Posté par arnaudus . En réponse au journal Itinérance à l'étranger. Évalué à 10 (+7/-0).
En fait, il faut réaliser un truc : n'importe qui sait utiliser un LLM. Bon, c'est vrai que ça dépend de la taille du projet, parce que ça peut coûter de l'argent etc, mais sur le fond, c'est vrai.
Ce que ça veut dire, c'est que demander à un LLM de compiler plusieurs Mo de données, de mettre en place un site interactif avec une carte, du texte, des analyses, etc., c'est probablement quelque chose qui ne sert pas à grand chose. À commencer parce que les infos deviennent vite obsolètes, que l'ergonomie du site est au mieux perfectible (cliquer sur un pays donne accès à un texte indigeste qu'il faut scroller…), et que dans l'ensemble ça reste invérifiable.
Maintenant, compare à l'alternative beaucoup plus simple : demander soi-même à un LLM avec des informations précises (quand, où, opérateur actuel, type de consommation). Tu auras une réponse rapide et contextualisée, que tu pourras raffiner autant que tu veux, avec des demandes spécifiques (est-ce qu'en considérant les frais de résiliation ça vaut quand même le coup de changer d'opérateur, etc).
Je ne sais pas si c'est encore clair pour tout le monde qu'on peut difficilement être utile en interrogeant un LLM à l'avance à la place des gens. Est-ce que par exemple tu trouverais utile un site qui compile toutes les requêtes Google possibles à partir d'un seul mot du dictionnaire? Probablement pas. Bah là c'est le même principe. Je pense qu'il est bien établi que la plupart des gens consultent des LLM pour tout et n'importe quoi, surtout n'importe quoi, et parfois pour des questions dont personne de ma génération n'envisagerait de poser à un LLM ("pour qui voter", etc). Ils n'ont pas besoin de passer par une interface complexe qui sert de cache à des requêtes LLM.
Pour ton projet en particulier, la clé n'est pas l'interface (qui à mon avis est assez confuse, par exemple, pourquoi une carte? C'est plus simple de taper "Ouzbekistan" que de chercher l'Ouzbekistan sur une carte…), mais les données. Et malheureusement, la base de données semble très mal faite : des blocs de texte donnant des infos hétérogènes, pas de date de consultation, pas d'URL indiquant la source, pas de possibilité de faire des recherches croisées… Maintenir une BDD actualisée et "curée" manuellement, ça c'est du boulot; après, de nombreux robots pourraient se brancher dessus.
[^] # Re: Syndrome de la Tourette
Posté par arnaudus . En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à 3 (+0/-0).
Les gens n'ont pas attendu les LLM pour introduire des bugs…
Il y a également toute une disparité de performances de code parmi les LLM, j'imagine qu'il est quand même largement raisonnable que les perfs vont s'améliorer, et que les LLM spécialisés dans le code vont progresser. Un système conçu autour d'agents avec des tâches spécifiques sont organisés pour gérer les intégrations, les tests unitaires, les tests statiques, etc., ce qui est très très différent de Jean-Machin qui push un javascript pondu par ChatGpt grand public…
Je suis certain que les grandes entreprises bien organisées ont un monitoring très précis des taux d'erreur et des procédures adaptées (quand faire intervenir un humain, etc), mais c'est probablement assez confidentiel, comme information.
[^] # Re: Syndrome de la Tourette
Posté par arnaudus . En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à 2 (+1/-2).
Ma phrase était
"La gestion des bugs et des failles de sécurité dans le code, les LLM modernes sont plus performants, plus fiables, et plus rapides que les humains."
Pour le "plus rapide", il n'y a même pas à discuter.
Plus performant, il n'y a qu'à compiler les réactions des devs des projets libres. Par exemple, Daniel Stenberg, le mainteneur de curl:
"Over the last few months, we have stopped getting AI slop security reports in the curl project. They're gone. Instead we get an ever-increasing amount of really good security reports, almost all done with the help of AI. They're submitted in a never-before seen frequency and put us under serious load. I hear similar witness reports from fellow maintainers in many other Open Source projects."
Maintenant, si ça te fais plaisir de rester dans le déni parce que tu préfères rester quelques semaines de plus dans une bulle imaginaire où les LLM n'explosent pas les humains sur une quantité grandissante de tâches, eh bien reste dans ta bulle. Je suis certain qu'il peut exister pendant très longtemps des petits groupes de discussion complotistes où les gens vont se gloser, "ah regardez-moi tous ces cons avec leurs perroquets stochastiques, quels pigeons qui ne comprennent pas qu'ils se font arnaquer; toutes ces entreprises qui investissent dans l'AI, que des cons", etc. Mais nier une réalité que tu n'aimes pas ne l'empêche pas d'exister : les performances des LLM évoluent très (trop) rapidement.
Bref, oui, les LLM de 2023, c'était des jouets. Il n'y a absolument aucune raison de penser que la situation n'évolue pas, bien au contraire. Au cours des derniers mois, on a eu des preuves très concrètes, très documentées, et parfaitement vérifiables, des performances littéralement "surhumaines" de la prochaine génération de LLM (OpenAI pour les maths, Anthropic pour les failles de sécurité). Est-ce que de telles preuves sont en mesure de te faire changer d'avis? Normalement, elles feraient changer d'avis toute personne rationnelle. La résolution d'un des 10 problèmes majeurs d'Erdös ne peut que faire changer d'avis quelqu'un qui comprend ce dont il s'agit. Si tu ne sais pas ce dont il s'agit, va lire les réactions des meilleurs mathématiciens du monde. Mais toi, tu écris "ahah, tu dois travailler avec des humains un peu nuls". Franchement, j'ai l'impression de parler à un climatosceptique bloqué sur le mode "oui bon c'est l'été, il faut chaud".
[^] # Re: Syndrome de la Tourette
Posté par arnaudus . En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à 3 (+0/-0).
Deepl c'est de l'IA, deep learning sur un gros corpus de texte, je ne suis pas sûr que tu puisses sauter directement à une conclusion sur le coût écologique respectif des deux approches. Les performances restent très différentes (par exemple, Deepl n'est pas promptable, tu ne peux pas lui donner des instructions sur le style, etc).
C'est faux, et tu le sais. Tu pourrais répondre ça à n'importe quel usage utile d'un LLM, donc je ne vois pas où ça n'amène.
La gestion des bugs et des failles de sécurité dans le code, les LLM modernes sont plus performants, plus fiables, et plus rapides que les humains. Vouloir gérer ça "à la main" c'est la même chose que de faire la vaisselle à la main au lieu d'acheter un lave vaisselle : c'est une démarche idéologique, que tu as le droit de défendre, mais c'est faux de prétendre que c'est "mieux fait" ou que c'est de la flemme (à moins de considérer par essence que tout gain de productivité c'est de la flemme). Au passage, ton humain il mange, il pollue, il chauffe l'hiver et climatise l'été, il se déplace, etc., et son bilan environnemental n'est pas jojo; comme il doit bosser 15 jours pour faire moins bien ce que Claude fait en 10 minutes, pas sûr que le bilan de l'humain soit si positif que ça…
Tu n'as pas suivi l'actualité.
https://www.reddit.com/r/math/comments/1tj534d/openais_internal_model_disproves_unit_distance/
De nombreuses sommités en maths sont sur le cul, des médailles Field ont clairement écrit que leur monde avait subitement changé.
https://mathoverflow.net/questions/511484/is-this-an-even-worse-moment-for-a-math-career
Et le pire, c'est que ça n'est pas une IA spécialisée qui a résolu un problème majeur en maths, c'est la prochaine version grand public d'OpenAI.
Je pense qu'on n'a pas réalisé à quel point ce truc était gros. C'est vraiment un écrabouillement définitif de l'argument du perroquet stochastique.
Désolé, mais ça, ça ressemble à de la fumisterie. Si tu ne sais pas, ça n'est pas grave, mais on devrait tous laisser à Donald Trump l'exclusivité de l'invention d'un monde imaginaire qui colle à son idéologie, sans considération pour la réalité.
L'AI a déja radicalement transformé la recherche scientifique dans de nombreux domaines, en fournissant des outils pour des tâches qui jusqu'ici étaient soit extrêmement chronophages (typiquement, la segmentation d'images ou de volumes, le tracking vidéo…), soit totalement impossibles (la prédiction de la structure 3D des protéines). D'une manière générale, il y a peu de disciplines où on ne fait pas d'analyse d'image, d'analyses statistiques non-linéaires, de prédiction de structure moléculaire, qui sont des domaines où les algorithmes de machine learning sont dorénavant incontournables. Si tu rajoutes maintenant le fait que les LLM savent faire l'intermédiaire entre un énoncé en langage naturel et un assistant de preuve, tu rajoutes les maths et la modélisation; dans quelques années il ne restera plus beaucoup de recherche scientifique qui n'utilisera pas un algo IA quelque part dans l'analyse.
[^] # Re: Syndrome de la Tourette
Posté par arnaudus . En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à 1 (+1/-3).
La traduction automatique dans n'importe quelle langue?
Les filtres à spams / arnaques?
La modération automatique des contenus pédonazis avant qu'un humain ne tombe dessus?
Le remplissage automatique de formulaires et le guide dans les démarches administratives pour défendre ses droits?
La détection de bugs et de failles de sécurité qui sont passés à travers les revues de code?
La résolution de problèmes mathématiques qui ont résisté aux meilleurs humains depuis un siècle?
Et là, le critère n'est pas "économiquement pertinent". C'est "socialement pertinent", dans le sens où ça serait tout bonnement impossible d'avoir de tels services sans les LLM.
Si la question est étendue aux IA spécialisées, alors tous les domaines scientifiques peuvent en bénéficier (et en bénéficient déja largement).
[^] # Re: Solution
Posté par arnaudus . En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à 3 (+0/-0).
Ce n'est pas "dur" que l'humain surveille, c'est inefficace et non-fiable. Inefficace parce qu'avec un surveillant pour 20 ou 30 élèves, c'est à la portée de tout le monde de tricher quand le surveillant regarde ailleurs, et non-fiable parce que le risque de faux positif demeure élevé, et qu'il existe surtout des formes de triche virtuellement ou légalement indétectables. Certains consultent leur téléphone quand ils vont aux toilettes, d'autres ont un système d'oreillette. La fouille est interdite, le contact physique également, les surveillants n'ont pas les moyens techniques de confirmer une suspicion, c'est donc une tâche impossible.
[^] # Re: Pas sérieux
Posté par arnaudus . En réponse au lien LLM : Quand les pires technologies sont pourtant les gagnantes. Évalué à -2 (+2/-7).
C'est juste de la m…
En particulier, le texte revient plusieurs fois sur une énième déclinaison de l'argument du perroquet stochastique (les LLM sont incapables d'originalité, ils manipulent des mots mais pas des concepts, etc), qui était déja compliqué à défendre en 2023. Il faut vraiment ignorer tout des capacités des modèles récents pour continuer sur une telle ligne… Tiens, on a d'ailleurs très peu parlé de la résolution par le successeur de ChatGPT grand public d'un des problèmes d'Erdös les plus importants (https://les-mathematiques.net/vanilla/discussion/2342473/une-ia-dopenai-refute-une-conjecture-derdoes-unit-distance-conjecture).
Ce genre de texte est une dystopie : il force la réalité dans une grille de lecture pré-établie par l'auteur, sans aucune considération pour les contorsions et écarts à la logique élémentaire et au rapport à la vérité qu'il faut accepter pour le faire.
# Syndrome de la Tourette
Posté par arnaudus . En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à -4 (+3/-10).
Moi j'ai l'impression que les diatribes anti-IA deviennent un défouloir dans lequel on décharge des charrettes de haine technophobe, sans considération particulière sur la qualité des arguments ou la véracité des faits.
Là, on a tout un gloubiboulga d'arguments accumulés sans trop de logique : les élèves trichent avec l'IA, les profs utilisent l'IA pour corriger ou pour concevoir des sujets, les décideurs qui parlent de l'IA à l'école sont des bouffons ridicules, les sanctions contre les tricheurs sont inefficaces, le grand oral amène certains à apprendre leur texte par coeur et à ne pas réflechir, pof, tout ça est déposé en vrac comme un clodo dépose la 8-6 de trop sur le trottoir, et si t'es pas convaincu c'est que tu es un suppôt du grand capital.
J'ai parfois l'impression que la simple mention de "LLM" donne chez certains des crises d'urticaire ou une volonté irrépressible de murmurer des flots d'insultes… Il y a quand même un problème médical, ça n'est pas possible d'en arriver là.
Je veux bien que certains s'inquiètent pour les conséquences environnementales des data centers, ou même s'inquiètent pour la pérennité ou le sens de leur métier, mais depuis quand de telles inquiétudes légitimes sont-elles censées justifier de raconter n'importe quoi?
En tout cas, je trouve assez cocasse que ceux-là même qui dénient aux LLM toute forme d'intelligence marginale, ne voient aucune contradiction avec l'idée qu'ils puissent composer un sujet de bac de philosophie avec brio, sans aucun moyen de pouvoir prouver l'origine "artificielle" de la copie. On a aussi le couplet sur la justice laxiste (mais que fait la police?), et sur le pauvre enseignant qui n'a même plus le droit de saquer de manière discrétionnaire un élève qu'il trouve indigne du niveau de sa copie… Dans quelle mesure ça n'est pas une énième incarnation des vieux qui prétendent que "c'était mieux avant"?
[^] # Re: Solution
Posté par arnaudus . En réponse au lien Quand l’IA corrige l’IA : un bac de philo très augmenté. Évalué à 7 (+4/-0).
Le brouilleur c'est complexe; il faut une autorisation pour émettre, ça pose des problèmes de sécurité (par exemple pour appeler les secours), et ça bloque les utilisations légitimes (dans un établissement, il y a tout un tas de gens qui peuvent utiliser leur téléphone mobile, à commencer par les surveillants qu'il faut pouvoir joindre pour leur dire d'annoncer qu'il y a une typo à l'exercice 3 ou qu'il faut distribuer le sujet B).
Il semble beaucoup plus pragmatique d'utiliser un détecteur. Ça coûte dans les 500€, ça peut même détecter les téléphones éteints, et le plus simple est de le passer sur les élèves quand ils rentrent dans la salle un par un (ce qui éviter un protocole de recherche et de fouille si on trouve un signal au cours d'une épreuve).
Mais c'est comme tout. Il faut une volonté institutionnelle, une capacité de mettre en place et d'appliquer un protocole, et un budget, choses qui sont totalement hors de portée de l'éducation nationale.
[^] # Re: :-0
Posté par arnaudus . En réponse au lien Mon guide de retour : la déportation expliquée aux enfants par Frontex avec des images colorées. Évalué à 10 (+9/-0).
Sans connaitre les raisons qui ont justifié la rédaction de ce guide, c'est difficile à dire. J'ai du mal à voir comment un exercice d'un tel cynisme pourrait valider une quelconque démarche éthique.
À quand le guide des nazis à destination des enfants Juifs? "Tu vas faire un grand voyage en train", "À l'arrivée, les organisateurs du camp te mettront avec des copains de ton âge", "les plus costauds d'entre vous auront la chance de travailler pour le plus beau pays du monde", "Les règles d'hygiène sont strictes, quand tu entendras 'à la douche', c'est à ton tour!". Et hop, un point EthicalGodwin!
[^] # Re: :-0
Posté par arnaudus . En réponse au lien Mon guide de retour : la déportation expliquée aux enfants par Frontex avec des images colorées. Évalué à 6 (+3/-0).
Ce que je trouve sidérant, ce n'est pas d'expulser des étrangers en situation irrégulière, ni d'écrire un guide, mais c'est le niveau de cynisme des gens qui l'ont conçu : qu'est-ce que ça pouvait bien leur faire, une fois le principe accepté, d'écrire "Dans ton pays, la vie ne sera peut-être pas facile, tu pourras être confronté à la guerre, à la pauvreté, ou à la violence.". Quel degré de pourriture faut-il pour oser écrire "Tu pourras vivre de nouvelles expériences"?
[^] # Re: Bug
Posté par arnaudus . En réponse au message Un truc de licence que je ne comprends pas. Évalué à 4 (+1/-0).
Apparemment, le rapport de bug a été crée.
Le projet donne deux informations conflictuelles sur la réutilisation du code. La licence MIT dit "Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files, to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software", alors que le README dit "Il est formellement interdit à tout autre acteur d’utiliser le Système de Design de l’État (les administrations territoriales ou tout autre acteur privé) pour des sites web ou des applications.". C'est parfaitement contradictoire, et même si la nuance est liée au droit des marques et l'usurpation de l'identité de l'État, c'est extrêmement confus.
Le minimum serait de (i) clairement stipuler la liste des éléments graphiques qui représentent l'État (logos, polices, fichiers de style…), de les isoler et de les diffuser sous une licence différente, et (ii) de reformuler l'avertissement de manière à clairement informer que le fait que le code soit libre n'autorise personne à héberger un site web pouvant se faire passer pour l'État.
De facto, je pense que la justice pourrait considérer que la diffusion sous licence libre d'éléments graphiques identifiant une marque pourrait être équivalent à un renoncement à protéger la marque…
[^] # Re: LeMonde.fr
Posté par arnaudus . En réponse au journal Eh, réveillez-vous, LinuxFr.org est en train de se faire supprimer de Wikipédia ! 😱. Évalué à 4 (+1/-0).
Ce n'est pas ce que Wikipédia appelle "une source centrée". Linuxfr est cité, mais ce n'est pas un article sur Linuxfr.
En pratique, quelle information de l'article sur Linuxfr pourrait être confirmée par cette source, à part que Linuxfr serait un forum de discussion, ce qui est faux?
[^] # Re: Référence dans les article de Next
Posté par arnaudus . En réponse au journal Eh, réveillez-vous, LinuxFr.org est en train de se faire supprimer de Wikipédia ! 😱. Évalué à 10 (+9/-1).
Pour une encyclopédie traditionnelle, le système passe par l'argument d'autorité; les articles sont écrits par des spécialistes qui représentent l'état des connaissances. C'est d'ailleurs comme ça qu'avaient été conçues les tentatives qui ont précédé Wikipédia, avec un échec flagrant dû au faible nombre de participants et à la tâche surhumaine qui leur était confiée personnellement.
Le succès de Wikipédia est construit sur le principe fondateur de la neutralité de point de vue et des sources fiables. Si tu écris "Linux est le meilleur OS", quelqu'un va le corriger en "Hurd est le meilleur OS", et ça va mal finir. Si tu écris "en 2020 Linux a été désigné meilleur OS par le site Linuxfr", c'est factuel, tout le monde peut être d'accord là-dessus. Cette histoire de sources est donc indissociable du fonctionnement de Wikipédia, et en particulier, quand il n'y a pas de sources, il ne peut pas y avoir d'article.
Le niveau de détestation de Wikipédia par une partie de la communauté me surprend quand même réellement. Il me semble bien plus aisé de contribuer à Wikipédia qu'à n'importe quel projet libre!
[^] # Re: C'est comme ça que nos projets ont été effacés ...
Posté par arnaudus . En réponse au journal Eh, réveillez-vous, LinuxFr.org est en train de se faire supprimer de Wikipédia ! 😱. Évalué à 5 (+2/-0). Dernière modification le 18 juin 2026 à 16:55.
La question de la bibliographie des scientifiques est posée depuis longtemps sur Wikipédia, sans avoir de réponse claire. Le travail des scientifiques étant de publier des livres et des articles, parfois par centaines au cours d'une carrière, l'établissement de listes bibliographies exhaustives ne relève pas du travail encyclopédique. Le critère compte d'éditeur / compte d'auteur peut paraitre arbitraire, mais c'est un moyen simple de trier la production courante des ouvrages à portée plus grande (étant donné qu'un éditeur a accepté d'investir dessus, il a forcément trouvé un potentiel de diffusion à l'ouvrage).
J'imagine que ce qui a motivé le "nettoyage" de la liste, c'est une suspicion d'auto-promotion. La liste ne proposait pas un travail de synthèse, avec une sélection de quelques livres majeurs, mais une liste exhaustive d'ouvrages plus ou moins confidentiels.
Et oui, pour l'auto-édition, c'est très souvent une spécialité de certains éditeurs, et en tout cas, les collections sont séparées. Il n'y a donc que peu de doutes sur le fait qu'un ouvrage est auto-édité.
Retirer les éléments d'auto-promotion d'une biographie, c'est le même principe que de retirer les failles de sécurité potentielles d'un bout de code, ou de formatter le code conformément aux règles du projet. C'est un boulot de nettoyage et de conformité, qui est rendu nécessaire par l'ouverture de l'édition de Wikipédia à tous. L'éditeur de Wikipédia n'est pas plus malveillant que le mainteneur d'un projet libre qui refuse un pull request.