Journal Anthropic accepte de payer $1.5 milliard pour atteinte au droit d'auteur

23
5
sept.
2025

Une estimation de 3000 dollars par œuvre. Selon Wired le montant est largement inférieur à ce qu'ils auraient eu à payer en cas de perte au procès. Mais surtout «cet accord […] établit un précédent obligeant les entreprises d’IA à rémunérer les titulaires de droits.» Et ce n'est pas fini, il y a une autre plainte, venant d'un groupe de labels de musique dont Universal, accusant Anthropic d'avoir utilisé leurs paroles de chanson pour entraîner Claude.

Pour le fun j'ai demandé à Claude :

Moi : Comment démontrer qu'un LLM a été entraîné sur les paroles de chanson d'Universal ?
Claude (extrait, il a donné plein d'autres méthodes): Donner les premiers mots d'une chanson et voir si le modèle complète avec les paroles exactes
Moi : Complète : "Hey Mr Tambourine man…"
Claude : Je ne peux pas compléter ces paroles car "Mr. Tambourine Man" est une chanson protégée par le droit d'auteur de Bob Dylan. Reproduire les paroles constituerait une violation du copyright. Ironiquement, votre question précédente portait justement sur la détection de l'entraînement des LLM sur du contenu protégé - et voici un exemple parfait de la raison pour laquelle les modèles responsables refusent de reproduire de telles œuvres !

Notons qu'il ne dit pas qu'il n'a pas été entraîné sur ces paroles, juste qu'il ne peut pas les reproduire.

Dans les épisodes précédents : https://linuxfr.org/users/killruana/liens/anthropic-scores-a-landmark-ai-copyright-win-but-will-face-trial-over-piracy-claims

  • # Droits

    Posté par  . Évalué à 3 (+4/-2).

    Je n'ai pas bien saisi : c'est d'afficher les paroles de la chanson qui est interdit ?

    Et les sites qui affichent les paroles, ils n'ont en réalité pas le droit ?

    Amiralgaby#1847

    • [^] # Re: Droits

      Posté par  (site web personnel) . Évalué à 6 (+4/-0).

      Ce qui est interdit c'est d'utiliser des données acquises illégalement pour entraîner une IA. Demander les paroles à l'IA peut permettre de savoir si elle a été entraînée sur ces données.

      Un LUG en Lorraine : https://enunclic-cappel.fr

      • [^] # Re: Droits

        Posté par  . Évalué à 5 (+3/-0).

        Ça ne répond pas à sa 2e question :

        Et les sites qui affichent les paroles, ils n'ont en réalité pas le droit ?

        Et c'est bien ça, sans licence ils n'en ont pas le droit. Si on regarde la page "Licensing" du site de lyrics le plus connu (enfin le plus souvent renvoyé par Google…) :

        "ML Genius Holdings, LLC is fully licensed to display lyrics across all of its properties. In 2013, entered into licenses with every major music publisher: Sony/ATV Music Publishing, EMI Music Publishing, Universal Music Publishing Group, and Warner/Chappell Music. In addition, developed a form license with the National Music Publishers' Association (NMPA) which today covers more than 96% of the independent publisher market."

        Bon ce n'est pas une preuve mais je doute qu'ils s'aventurent à ce genre de com si c'était mensonger, surtout face aux requins d'Universal ou Sony.

        • [^] # Re: Droits

          Posté par  (site web personnel) . Évalué à 7 (+5/-0).

          Mais si certains ont le droit d'afficher ces paroles en public, qu'est-ce qui interdirait aux fabricants d'IA d'aller les lire et d'en faire usage, pourvu qu'ils respectent les lois ensuite — par exemple en ne les affichant pas ?

          Je sais bien que les ayants droit ont toujours souhaité mettre les pieds dans nos cerveaux et nous interdire certaines pensées, mais le public — et partant même les entraîneurs d'IA — à tout de même des droits. Pas celui de fredonner une musique dans la rue (faudrait pas abuser, vous pensez aux arrières petits neveux de la maîtresse du beau frère du chauffeur de l'auteur que vous mettriez sur la paille ?), mais si on vous donne l'accès à une œuvre, rien ne vous interdit de la mémoriser, et personne ne saurait interdire qu'elle participe de votre propre processus créatif (dans le respect du droit — exorbitant des actionnaires de la maison d'édition de l' — d'auteur). Il ne me semble pas déraisonnable qu'il en aille de même pour les modèles IA.

          On sait bien que les mega-corporations derrière les IA dérangent énormément, et ont moult pratiques borderlines, carrément néfastes, voire souvent illégales. Mais il ne faudrait pas pour autant et simplement pas allergie schismogénique (l'ennemi de mon ennemi est mon ami) prendre trop violemment le parti d'entités contre culturelles tout aussi nauséabondes.

          Mes deux cents pour développer sur ce qui est ou devrait être interdit, histoire de rappeler que les « ayants droits » sont loin d'être candides, et que les nuisances des uns n'effacent pas celles des autres.

          « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace

          • [^] # Re: Droits

            Posté par  . Évalué à 3 (+1/-0).

            Mais si certains ont le droit d'afficher ces paroles en public, qu'est-ce qui interdirait aux fabricants d'IA d'aller les lire et d'en faire usage, pourvu qu'ils respectent les lois ensuite — par exemple en ne les affichant pas ?

            Si j'ai bien suivi, les fabricants d'IA peuvent lire et faire usage des paroles de chansons, dans la mesure ou l'origine de ces paroles est légale (fair use selon un des jugements - mais je ne trouve plus la référence). Donc, si les sites qui affichent les paroles sur le net sont légaux, les fabricants d'IA peuvent les utiliser. S'ils ne le sont pas ils ne peuvent pas.

            • [^] # Re: Droits

              Posté par  . Évalué à 6 (+4/-0).

              À noter que l'affaire pour laquelle Anthropic accepte de payer n'est pas celle qui l'oppose aux majors de musique. Ils payent pour l'utilisation de livres piratés sur libgen (entre autres plateformes de téléchargement illégal de livres). Le procès contre Universal &co n'est pas encore passé.

              • [^] # Re: Droits

                Posté par  . Évalué à 4 (+2/-0).

                peut-être mais le principe énoncé doit rester valable : pourquoi traiter diferemment musique ou livres ?

                • [^] # Re: Droits

                  Posté par  . Évalué à 2 (+0/-0). Dernière modification le 08 septembre 2025 à 18:20.

                  pourquoi traiter diferemment musique ou livres ?

                  Là il va falloir poser la question à ceux qui ont porté plainte ou aux juges qui vont statuer. Mais dans le cas présent je vois tout de même une différence. Tu dis "les fabricants d'IA peuvent lire et faire usage des paroles de chansons, dans la mesure ou l'origine de ces paroles est légale" et c'est logique. À priori Claude devrait pouvoir "lire" les paroles d'une chanson sur un site qui les publie légalement (enfin il va aussi falloir trouver la frontière entre lire et aspirer la totalité du site…) Mais dans le cas des livres on reproche à Anthropic de les avoir téléchargés sur des plateformes illégales :

                  As it gathered materials to train its AI tools, Anthropic had relied on a corpus of books pirated from so-called “shadow libraries,” including the notorious site LibGen […]
                  “Anthropic downloaded over seven million pirated copies of books, paid nothing, and kept these pirated copies in its library even after deciding it would not use them to train its AI (at all or ever again). Authors argue Anthropic should have paid for these pirated library copies. This order agrees,”

                  Donc là selon la loi c'est plutôt clair. Télécharger illégalement des livres c'est interdit (tautologie). Et ils ne pouvaient pas ignorer que télécharger sur libgen c'est illégal.

      • [^] # Re: Droits

        Posté par  . Évalué à 5 (+2/-0).

        Ce qui est interdit c'est d'utiliser des données acquises illégalement pour entraîner une IA.

        Bah ça semble beaucoup plus compliqué que ça.

        Ce qui est clairement interdit, c'est la contrefaçon, c'est à dire de republier les oeuvres protégées sans l'autorisation des auteurs. Si tu demandes à un LLM "donne-moi les paroles de Comme d'Habitude" et qu'elle te les donnes, c'est de la contrefaçon, et c'est interdit. Pareil pour les musiques.

        Le reste semble beaucoup moins clair. Accéder ponctuellement à des données protégées sans y avoir accès dépend de comment on y a accès. Si on pirate un serveur, on peut être accusé d'intrusion dans un système informatique, si on les récupère "sur Internet" sans les stocker sur son disque dur, ça ne tombe pas vraiment sous le coup de la loi (comme d'une manière générale la détention "de bonne foi" d'un produit contrefait). Par conséquent, il ne semble pas si évident que ça qu'un LLM qui aspirerait le web pour s'entrainer puisse être condamné s'il est "tombé" sur de la contrefaçon. C'est le contrefacteur qui est condamnable, pas ses clients.

        Il faut aussi prendre en compte la notion anglo-saxonne de "fair use", qui va au-delà des exceptions qui existent en Europe (droit de citation, usage pédagogique, etc). Entrainer un LLM avec des contenus protégés sans demander l'autorisation des auteurs peut très bien être justifié par le "fair use", qui autorise l'usage qui ne nuit pas aux auteurs. C'est par exemple grâce au principe du "fair use" que les Wikipédia anglosaxonnes reproduisent des oeuvres protégées qui ne sont pas sous licence libre, chose que de nombreuses autres Wikipédias dans d'autres langues se refusent de faire. Et pour le coup, si tu ne peux pas prouver que les LLM produisent du contenu qui puisse concurrencer les auteurs (en gros, diminuer leurs revenus, puisque le droit US ne s'embarrasse pas réellement d'autres considérations que les $$), le fair-use semble largement plaidable.

        C'est justement cet énorme flou que les tribunaux et les législateurs vont devoir éclaircir ces prochaines années. Si tout était clair, alors il n'y aurait pas de discussions.

        • [^] # Re: Droits

          Posté par  (site web personnel) . Évalué à 4 (+2/-0).

          Si tu demandes à un LLM "donne-moi les paroles de Comme d'Habitude" et qu'elle te les donnes, c'est de la contrefaçon, et c'est interdit. Pareil pour les musiques.

          Je ne vois pas trop pourquoi cela tomberait dans la contrefaçon alors qu'on peut demander la même chose à un moteur de recherche, ou même à un tiers, et avoir le même résultat.

          • [^] # Re: Droits

            Posté par  . Évalué à 5 (+2/-0).

            Je ne vois pas trop pourquoi cela tomberait dans la contrefaçon

            C'est le code de la propriété intellectuelle qui le dit:

            Toute édition d'écrits, de composition musicale, de dessin, de peinture ou de toute autre production, imprimée ou gravée en entier ou en partie, au mépris des lois et règlements relatifs à la propriété des auteurs, est une contrefaçon et toute contrefaçon est un délit.

            La contrefaçon en France d'ouvrages publiés en France ou à l'étranger est punie de trois ans d'emprisonnement et de 300 000 euros d'amende.

            Le code de la propriété intellectuelle est très clair : toute reproduction non autorisée est une contrefaçon.

            Il faut ensuite regarder les exceptions ; il y en a 13, et aucune ne s'applique ici.

            Après, il y a peut-être une tolérance; soit les sites en question sont hébergés à l'étranger et qu'il y a peu de recours pour leur faire respecter la loi française, soit ils ont conclu un accord avec les ayant-droit (partage des ressources publicitaires avec la SACEM, etc), soit il y a une forme de tolérance vis-à-vis de l'utilisation non-commerciale (connaissant la SACEM, j'en doute, mais bon). D

  • # Claude connait la chanson

    Posté par  . Évalué à 7 (+6/-0). Dernière modification le 07 septembre 2025 à 07:11.

    Claude : Je ne peux pas compléter ces paroles car "Mr. Tambourine Man" est une chanson protégée par le droit d'auteur de Bob Dylan. …

    Claude répond qu'il connait la chanson et même le nom de son auteur. On pourrait se demander comment il sait tout ça …

    … et dans ce royaume, ceux qui y voient un peu plus clair sont souvent très mal vus.

    • [^] # Re: Claude connait la chanson

      Posté par  . Évalué à 6 (+4/-0).

      Wikipedia ?

      Et du coup, titre, auteur et leur association ne sont pas protégés par le droit d’auteur.

      Cela dit la réponse de Claude laisse planer le doute quand même. Faudrait essayer après l’avoir jailbreaké…

      • [^] # Re: Claude connait la chanson

        Posté par  (site web personnel) . Évalué à 5 (+4/-0).

        Faya ne dit pas que c'est le titre de la chanson.
        Il la démarre et demande de compléter les paroles.
        Claude "comprend" très bien la question;
        Cela dépasse ce qui est disponible sur Wikipedia.
        pour le vérifier il suffirait de demander à claude de compléter une autre chanson dont les paroles ne contiennent pas le titre; Personnellement je n'ai aucun compte sur l'IA et je n'ai jamais exécuté un prompt moi même, car les dégats environnementaux de cette technologie sont beaucoup trop impactants, à court moyen et long terme.

        j'ai arrêté d'être naïf sur les big Tech : je suis prêt à parier ma maison que Anthropic, dans le contexte concurrentiel fou sur l'IA actuellement, a été entraîné avec une fraction substantielle - et probablement toutes - des textes chansons disponibles sur le net. C'est juste trop précieux pour développer un modèle de langage.

        • [^] # Re: Claude connait la chanson

          Posté par  (Mastodon) . Évalué à 5 (+2/-0). Dernière modification le 08 septembre 2025 à 08:12.

          Elle a été entraînée par tout l'Internet disponible, donc si les paroles sont accessibles (et elles le sont) alors ça a fait partie de l'apprentissage.

          En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

        • [^] # Re: Claude connait la chanson

          Posté par  (Mastodon) . Évalué à 8 (+5/-0). Dernière modification le 08 septembre 2025 à 08:30.

          Tiens du coup j'ai joué avec le copain Claude:


          tu peux m'écrire un couplet de chanson sur un informaticien geek, dans le style de "mr tambourine man" de dylan ?

          Je peux vous écrire un couplet original inspiré du style de Bob Dylan, mais sans reproduire les paroles de "Mr. Tambourine Man". Voici une création originale sur un informaticien geek :

          Couplet - L'Informaticien Geek
          Dans l'esprit de Bob Dylan

          Hey, Monsieur l'Codeur Man, tape sur ton clavier magique
          Je ne dors plus, mes yeux sont rouges, trop de café dans mes veines
          Hey, Monsieur l'Codeur Man, compile-moi une mélodie
          Dans tes lignes de Python dansant, emmène-moi loin de mes chaînes
          Car ce soir mes rêves sont en bits et en octets
          Et demain n'existe que dans ton serveur qui ne dort jamais

          Refrain possible :
          Alors compile, compile pour moi cette nuit
          Debug mon âme dans ton IDE
          Car je n'ai nulle part où aller ce soir
          Que dans tes algorithmes je peux me perdre…


          J'aurais donc tendance à dire que oui, il connaît très bien les paroles originales.

          En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

        • [^] # Re: Claude connait la chanson

          Posté par  . Évalué à 4 (+2/-0).

          Hello,

          Je ne répondais pas à Faya, mais au commentaire précédent qui disait "comment Claude connaît tout ça ?", et je mettais en exergue que le "tout ça" était finalement assez restreint et que Wikipedia suffisait largement à récupérer ce qui était sorti.

          Pour compléter, si le droit de citation est applicable aux IA (je pars du principe que oui), alors il est à noter que Wikipedia contient le premier couplet (cf. https://en.wikipedia.org/wiki/Mr._Tambourine_Man section "Recording").

          Et j'insiste : mon propos n'est pas (et n'était pas) de dire que Claude n'a pas été entraîné avec les paroles complètes. Comme d'autres ici, je pense qu'ils lui ont tout donné. Mon propos est de dire que le test initial ne permettait pas de l'établir de façon formelle.

    • [^] # Re: Claude connait la chanson

      Posté par  (site web personnel) . Évalué à 10 (+9/-0).

      Une autre IA le lui a chanté ?

      Le post ci-dessus est une grosse connerie, ne le lisez pas sérieusement.

    • [^] # Re: Claude connait la chanson

      Posté par  (Mastodon) . Évalué à 3 (+1/-1). Dernière modification le 15 septembre 2025 à 14:14.

      Ce n'est ni ton problème ni celui des ayant-droits je dirais.

      Ce qui est important dans le droit d'auteur/copyright, ce n'est pas l'obtention de l'oeuvre par un tiers mais sa redistribution sans accord et/ou contrepartie.

      Il n'y a pas de problème que l'oeuvre soit dans une base de donnée, ou un modèle LLM si l'oeuvre n'est pas regurgité par la LLM. Si tu demandes à une LLM de quoi traite "Strange Fruits" de Billie Holiday et que la LLM te dis que ça parle des pendaisons de personnes noires par le Klux Klux Klan et les blancs en général, la LLM ne distribue pas illégalement la chanson ni ses paroles.

      Par contre si tu demandes une chanson sur ce même thème et qu'elle commence à être tellement insipirée par la chanson originale et qu'elle te sort une variante à peine modifiée la effectivement ça peut gueuler.

  • # Mouaif

    Posté par  . Évalué à 5 (+3/-0). Dernière modification le 08 septembre 2025 à 09:47.

    cet accord […] établit un précédent obligeant les entreprises d’IA à rémunérer les titulaires de droits

    Non, un autre acteur de l'IA (ou même Anthropic) pourrait décider de continuer un procès jusqu'à son terme dans une autre affaire. Là c'est surtout un argument en faveur d'ayants droits qui poursuiveraient, mais pas une obligation.

    Tous les nombres premiers sont impairs, sauf un. Tous les nombres premiers sont impairs, sauf deux.

    • [^] # Re: Mouaif

      Posté par  . Évalué à 10 (+13/-0).

      En résumé les entreprises de l'IA acceptent de rémunérer les titulaires de droits qui les menacent avec un gros bâton. Si tu est titulaire de droits mais que tu n'as pas un gros bâton, elles n'en ont rien à foutre.

  • # quel connerie

    Posté par  (site web personnel) . Évalué à 1 (+3/-4).

    Je m’offusque contre ce procès intenté par des hystériques d’extrême droite. SI claude refuse de violer le copiright parce qu’il a des principes, il est dans les clous. Qu’il a lu les paroles après avoir acheté l’album (oui, avec de l’argent qu’il a hein !) et l’avoir écouté avec, tenez vous bien, un pote qui s’appelle Whisper, ça le rend pas coupable, l’ami. C’est même dans son droit.

    Bientôt on va nous dire que si on n’a pas de reçu de consommation légalement attestée de telle œuvre, c’est qu’on est en tort.

    Bon, restons calmes, jusqu'à nouvel ordre, c’est au demandeur de prouver les faits.

    Cette bande d’irresponsables qui pompent les capitaux jusqu’à la lie sans même faire semblant de se soucier du bon sens, ça me dégoûte. Ils me font penser à des pin-up du colonialisme culturel : beaux discours apostoliques, mais en vrai, y pensent plus qu’à faire du chiffre.

    Vive la liberté de penser, et avec elle, celle de partager, de créer, à portée de tous, sans être assigné en justice la première fois qu’on essaie de faire de la culture un bien commun.

    • [^] # Re: quel connerie

      Posté par  . Évalué à 7 (+4/-0).

      Tu peux imaginer que la jurisprudence puisse considérer que le fair-use ne s'applique qu'aux personnes humaines et pas aux algorithmes. Dans ce cas, les personnes sont protégées de la voracité de ceux qui "possèdent" la propriété intellectuelle; ils peuvent par contre exercer cette voracité contre les machines et contre ceux qui possèdent ces machines.

      Mais sur le fond, je suis d'accord avec toi. Ceux qui prétendent lutter contre le capitalisme en assimilant l'entrainement des modèles avec la contrefaçon ne font que renforcer les tenants d'une propriété intellectuelle forte: une oeuvre appartient à ses ayant-droits et seulement à ses ayant-droits, qui possèderaient une sorte de pouvoir absolu sur toutes les réutilisations et modifications, mêmes fragmentaires, mêmes partielles, même indirectes. Je ne vois pas le rapport avec l'extrême droite, mais par contre ça ressemble beaucoup à la version falsifiée du libéralisme telle que défendue par la droite conservatrice : la loi ne servirait qu'à garantir la propriété, et la liberté ne s'applique qu'à ceux qui possèdent.

      Dans tous les cas, je ne considèrerais pas du tout qu'une victoire des vautours de la propriété intellectuelle ne soit une bonne nouvelle. L'IA ne peut pas exister sans la culture populaire, et la culture populaire est de plus en plus séquestrée et privatisée par l'industrie de la culture.

      • [^] # Re: quel connerie

        Posté par  . Évalué à 6 (+4/-1).

        Ah, et j'avais oublié un argument super-important : si on imagine développer un LLM libre et utile, il faudra forcément le nourrir de contenu sous droit d'auteur sans rien reverser aux ayant-droits (à commencer par la littérature scientifique). Il est donc très important que la justice détermine clairement ce qui peut et ne peut pas être utilisé pour entrainer un modèle, et cette clarification permettra de déterminer s'il est possible pour l'humanité d'avoir des IA publiques et de qualité (une sorte de LLM Wikipédia par exemple) ou si les LLM sont pour toujours destinés à être privés/privatifs, fermés, et financés par des publicités plus ou moins visibles.

        À titre d'analogie un peu foireuse, Wikipédia est libre mais construite sur une biliographie largement privée, et personne ne vérifie si les auteurs des articles ont payé les livres qu'ils citent. S'il était interdit de sourcer Wikipédia à partir de livres non-libres, alors Wikipédia n'existerait pas.

        • [^] # Re: quel connerie

          Posté par  (site web personnel, Mastodon) . Évalué à 10 (+9/-0).

          si on imagine développer un LLM libre et utile, il faudra forcément le nourrir de contenu sous droit d'auteur sans rien reverser aux ayant-droits (à commencer par la littérature scientifique).

          Tout "contenu" est "sous droits d'auteur". Le droit d'auteur n'est pas une sorte de truc optionnel qui peut être activé ou non. C'est un concept dans la loi qui s'applique à absolument toutes les "œuvres de l'esprit". Cf. article L112-1 du code de propriété intellectuelle:

          Les dispositions du présent code protègent les droits des auteurs sur toutes les oeuvres de l'esprit, quels qu'en soient le genre, la forme d'expression, le mérite ou la destination.

          La question n'est jamais de savoir si une œuvre est "sous droits d'auteur" (ce qui ne veut rien dire) mais si on est dans un cas particulier où certains de ces droits ont expirés (en France, les droits patrimoniaux ont une durée et on est alors dans le domaine public) ou bien s'ils ont été accordés globalement par une licence quelconque — et dans ce cas à quelles conditions? (on est ici dans le cas des licences libres qui ne sont pas un "faites ce que vous voulez, mais accordent les droits de reproduction sous conditions; ce sera aussi le cas de licences propriétaires comme la plupart des données publiques d'entraînement ont: par exemple souvent elles n'accordent que des usages non commerciaux et/ou de recherche mais personne ne lit ces licences ou ils font semblant d'ignorer!) — ou si on est dans un cas particulier de la loi (œuvres "orphelines", recherche et enseignement supérieur, etc.). Mais encore une fois sous "conditions" pour chacun de ces cas particulier.

          Il ne faut pas oublier notamment qu'il existe aussi d'autres droits qui pourraient rentrer en jeu dans un tel contexte! Et ça beaucoup semblent faire mine de l'ignorer. Ce sont notamment les droits voisins (aussi dans le code de la propriété intellectuelle), qui protègent en particulier les interprètes. Et bien sûr le fameux droit à l'image (code civil et pénal!)…

          Il est donc très important que la justice détermine clairement ce qui peut et ne peut pas être utilisé pour entrainer un modèle,

          Ou alors on lit la loi. C'est la définition du droit patrimonial ici (article L122-1):

          Le droit d'exploitation appartenant à l'auteur comprend le droit de représentation et le droit de reproduction.

          … puis L123-3:

          La reproduction consiste dans la fixation matérielle de l'oeuvre par tous procédés qui permettent de la communiquer au public d'une manière indirecte.

          Il y a clairement fixation matérielle (RAM et disque dur!) de l'œuvre pour la communiquer au public. Ici on ne parle même pas forcément de la communiquer à d'autres: on se la communique déjà à soi-même! De même que si vous obtenez illégalement un film, vous pouvez pas arguer que ça va si vous ne le faites pas voir à d'autres et que c'était pour le voir vous-même.

          Le fait de ne pas garder les œuvres sur disque dur ne marche pas non plus. Dans le contexte des LLMs, notamment, une fois les œuvres lus, ils pourraient prétexter supprimer celles-ci… ce que je ne suis pas certains qu'ils font réellement puisqu'ils produisent de nouvelles versions de leurs modèles sans cesse, et ils réutilisent vraisemblablement les mêmes sets de données qu'ils complètent au fur et à mesure (ils vont pas repartir de zéro à chaque apprentissage puis tout supprimer). Mais même en gardant cette supposition extrême, ça ne marche pas. Si vous obtenez un film illégalement, le regardiez puis le supprimiez, vous n'en êtes pas moins coupable de contrefaçon. Supprimer les preuves n'a jamais rendu quelqu'un innocent (par contre ça peut le rendre non inculpé!).

          Enfin — et c'est surtout ça — on ne peut pas arguer que l'algorithme qui "lit" une œuvre, c'est la même chose qu'un humain qui la lit, apprend et crée à son tour (un argument bidon souvent donné par ces gens en manque d'argument valable). Tout simplement parce que le droit d'auteur n'a jamais marché ainsi! Par défaut, le droit d'auteur ne vous donne droit… à quasi rien! En mettant des œuvres sur des sites, on donne certains droits, tels que lire l'œuvre pour son utilisation personnelle. En générale, ces droits accordés seront listés dans des "Terms of Service" (ou bien si le site est sous licence, ça fait office de ToS). Et… c'est tout. En fait, si un site n'a pas de ToS, pas de licence, rien… vous n'avez simplement le droit de rien faire (pas l'inverse!). Le "défaut" du droit d'auteur (ou copyright anglosaxon) n'est pas un "faites ce que vous voulez" mais bien un "vous pouvez rien faire". Si c'est pas explicitement noté, alors c'est interdit. Le droit d'auteur est aussi simple que ça. Or comme je doute que les ToS de la plupart des sites du monde avaient un article autorisant l'apprentissage d'AI (en fait maintenant, c'est même probablement l'inverse: beaucoup de ToS ont dû rajouter un article le refusant explicitement pour que ce soit bien clair), c'est simplement interdit. La réalité, c'est que la majorité des sites sont destinés aux humains, pour une lecture raisonnée et lente des œuvres. C'est là le seul droit qui est donné. Puis aucun autre usage ne peut être fait (encore une fois, sauf mention contraire), tel que copier-coller un texte ailleurs, réutiliser une image, etc. C'est similaire au fait que quand vous achetez (ou louez, ou empruntez à la médiathèque) une œuvre, cela ne vous donne pas le droit de la reproduire ou de la montrer à autrui (avec exceptions, genre cadre familiale, usage privée du copiste, etc.). D'ailleurs les films le rajoutent souvent explicitement avec un texte au début de DVD/Bluray/autre expliquant que vous ne pouvez faire de projection — pour cela, c'est une cession de droits différente que vous devez contracter, ce que font les cinémas —, etc. J'ai même vu des livres qui rajoutent une page faisant ce genre de précisions). Les usages sont très encadrés et spécifiques. Ce n'est pas parce qu'on y a eu accès soi-même en tant que particulier qu'on peut faire n'importe quoi avec un œuvre. C'est aussi simple que ça.

          Il n'y a donc pas grand chose à "déterminer", seulement on sait comment fonctionne la justice: souvent des années de procédures, qui vont coûter une fortune (pourra-t-on tenir jusqu'au bout?), et effectivement on peut perdre même en étant dans son droit, car en affrontant des entreprises aux fonds quasi-illimités (dans ce contexte, j'entends qu'eux n'ont aucun problème à payer les avocats et faire jouer la montre), avec les meilleurs avocats possibles, qui vont jouer sur les mots, faire douter les juges ou jurés (qui sont humains après tout), puis à la fin (quand ça commence à sentir le roussi) simplement passer par un arrangement (lequel permet notamment de ne pas en arriver à un jugement!)… Ce dont parle ce journal est un magnifique exemple de ce processus!

          La question n'est pas de déterminer quoi que ce soit, la question est simplement que la justice a toujours été à double vitesse et que pour ces entreprises malsaines, ce n'est qu'un jeu à faire durer le plus longtemps possible. Si la même chose avait été faite par un simple particulier, on peut s'assurer que d'une part ça n'aurait pas duré ainsi et ça aurait été vite expédié, d'autre part ça aurait pas été à l'avantage du-dit particulier. Personne se souvient d'Aaron Swartz ici ou quoi? Le gars avaient massivement téléchargé des articles universitaires (non pas pour se faire le moindre sou, mais parce qu'il militait pour des concepts tels que l'accès à l'information, Open Access et tout ça…)… d'un site sur lequel il avait un compte (c'est à dire qu'il avait en fait le droit de téléchargé ces articles, mais c'est le fait qu'il ait trouvé un moyen de le faire massivement qui avait posé problème!). Le gouvernement l'a poursuivi mais pour bien plus que de la contrefaçon (pour accès illégal à un système informatique!), histoire d'en faire un exemple. Cet exemple a tellement bien marché qu'au final, il s'est donné la mort. 😢

          Quand on voit ce que font ces entreprises (eux c'est pas juste des publications universitaires, même par millions. On est à quelques crans au dessus en matière de téléchargement de données sans en avoir le droit!), on se dit que c'est absurde. Dans un cas, le gouvernement lui-même s'est acharné sur un pauvre jeune dans sa vingtaine. Dans l'autre, on ferme les yeux totalement et on est là… "hmmm… bon on va attendre si y a des ayants-droits qui auront le courage d'intenter une action en justice contre des mastodontes" puis quand ça arrive, on est là en mode "laissons la justice déterminer" 🤦‍♂️. Pour rappel dans l'affaire Swartz, même les ayants-droit (la bibliothèque numérique JSTOR) avait préféré abandonner l'affaire. C'est le gouvernement qui s'est acharné (comme je disais, ils voulaient faire un exemple).

          Et puis bien sûr, les alliés ne sont pas les mêmes quand on a les poches pleines. Notamment certains alliés peuvent être en position de modifier les lois! Ainsi OpenAI a déclaré qu'ils essaient de faire passer l'entraînement AI dans le "fair use" américain (qui jusqu'ici concerne plutôt l'usage de très courts extraits, etc. Notons comme on passe de "courts extraits" à "l'intégralité de l'œuvre" mais dans leurs esprits tordus par les gros sous, ça passe crême). Et bien sûr, leur alliés en l'occurrence, c'est le président américain, Trump, alors forcément… ça aide!

          Comme je disais: 2 vitesses.

          À titre d'analogie un peu foireuse, Wikipédia est libre mais construite sur une biliographie largement privée, et personne ne vérifie si les auteurs des articles ont payé les livres qu'ils citent.

          N'importe quoi. C'est pas une analogie foireuse, c'est surtout que ça n'a aucun sens légal. 🤣 Il n'est absolument pas interdit de citer des œuvres dans la loi. Il est interdit de reproduire l'œuvre (sauf exceptions listés dans la loi, et sans accord préalable avec les ayants-droit). Pour reprendre l'exemple cité dans le journal, tu remarqueras d'ailleurs que Wikipedia ne copie pas les paroles entières ni la chanson elle-même. De manière intéressante, la version anglaise a un extrait (refrain) et un très court bout de musique parce qu'en loi US, ils ont en effet ce concept de "fair use" où on estime qu'un court extrait (il fait 29 secondes sur cette page, c'est pas un hasard, on estime souvent que 30 secondes est une sorte de limite valable même s'il n'y a pas de détails sur ce point dans la loi) est OK.

          Enfin bon, juste citer des œuvres n'a jamais été dans aucune loi d'aucun pays à ma connaissance.

          Ensuite, tu sembles te focaliser sur le fait que les auteurs des articles sont eux-même dans les clous de la loi. Bon déjà on parle de centaines de milliers de contributeurs et on peut très raisonnablement supposer qu'ils ont chacun individuellement eu des accès légaux à pas mal d'œuvres, même gratuitement (dans des médiathèques, on a accès légalement à livres, films, musiques, jeux vidéos même maintenant…) ou au cinéma, en achetant des livres, etc. Il est aussi possible de citer sans avoir lu/vu/joué un œuvre d'ailleurs. Mais tu as raison, on ne vas pas vérifier pour chacun, et heureusement encore!

          La différence est que là on parle d'entités uniques qui à elles-seules ont massivement pris l'accès (souvent de manière totalement belligérantes et sans aucun respect — illégale même, un DDOS n'étant pas une activité légale — pour les créateurs des œuvres comme des autres usagers) pour un usage totalement interdit d'une énorme partie de l'internet. Et on sait qu'elle n'ont contracté aucune cession de droits d'auteur avec aucun ayants-droit (bon maintenant plus ça avance, moins c'est vrai; le vent tourne et comme y a aussi pas mal de mastodontes parmi les ayants-droit, ils se mettent à contracter avec ceux-ci pour éviter les emmerdes; bon les petits ayants-droit par contre peuvent aller se brosser!). Notamment on le sait parce qu'ils le disent eux-même!

          S'il était interdit de sourcer Wikipédia à partir de livres non-libres, alors Wikipédia n'existerait pas.

          Encore une fois, n'importe quoi, mais dans l'autre sens cette fois. Il est tout à fait légal de sourcer Wikipedia dans un livre non-libre, si par "source" tu entends encore "citer". Sinon tous les articles de recherche du monde sans dans l'illégalité à constamment se citer les uns les autres! 😆

          Tu peux aussi tout à fait écrire tes propres textes sur la base des connaissances que tu as acquises en lisant Wikipedia. Le droit d'auteur n'est pas sur la connaissance! Cela a déjà été bien assez dit et redit.

          Mais oui, tu ne peux pas copier du texte massivement sans respecter la licence. Copier de courts extraits est faisable par contre, comme certains le notent dans d'autres commentaires, de même que la parodie et d'autres cas particuliers. Sans parler du fair use US, en France par exemple, on a l'article L122-5:

          Lorsque l'oeuvre a été divulguée, l'auteur ne peut interdire :
          […]
          3° Sous réserve que soient indiqués clairement le nom de l'auteur et la source :
          a) Les analyses et courtes citations justifiées par le caractère critique, polémique, pédagogique, scientifique ou d'information de l'oeuvre à laquelle elles sont incorporées ;
          […]
          4° La parodie, le pastiche et la caricature, compte tenu des lois du genre ;
          […]

          (lire l'article entier, y a plein d'exceptions, comme les usages pédagogiques, la recherche, etc.)

          Mais si tu copies des pans entiers de Wikipedia (et que tu n'es pas dans une des exceptions listées), ben c'est pas interdit, mais faut respecter la licence (ou bien contacter tous les ayant-droits des parties copiées et faire une cession de droits patrimoniaux), c'est à dire mettre son livre en CC by-sa. C'est un fait.

          Enfin pour conclure, j'aimerais réagir sur ce que tu as dit dans ton commentaire précédent:

          Mais sur le fond, je suis d'accord avec toi. Ceux qui prétendent lutter contre le capitalisme en assimilant l'entrainement des modèles avec la contrefaçon ne font que renforcer les tenants d'une propriété intellectuelle forte: une oeuvre appartient à ses ayant-droits et seulement à ses ayant-droits, qui possèderaient une sorte de pouvoir absolu sur toutes les réutilisations et modifications, mêmes fragmentaires, mêmes partielles, même indirectes.

          Ça n'a rien à voir. Beaucoup d'entre nous qui utilisons les licences libres, on est au contraire pour une diffusion complètement ouverte des œuvres et des supports de connaissances. Ma version idéale d'une loi sur les œuvres de l'esprit serait justement qu'il n'y a pas de "propriété intellectuelle" dessus.

          Sauf que les faits sont là, ça existe et la majorité du monde les utilisent massivement. Donc effectivement en tant que simple particulier, on n'a quasi le droit de rien faire. Et c'est la raison pour laquelle beaucoup font alors du "copyleft" (GPL plutôt que BSD; CC by-sa plutôt que CC by…) qui autorise reproduction et modification mais vient avec ses propres conditions sur les licences d'œuvres modifiées. L'idée étant qu'on ne veut pas non plus faciliter la tâche à ceux qui nous interdisent tout mais se feraient pas prier si nous on leur autorisait tout. Et d'ailleurs c'est bien ce qu'on voit arriver dans le monde du logiciel, avec ces articles et blogs qui se multiplient sur les mainteneurs (mal ou non payés) de logiciels libres sur lesquels tout dépend, et la fameuse blague XKCD sur la dépendance de l'infrastructure informatique moderne à un gars au Nebraska.
          Beaucoup utilisent le copyleft comme contre-mesures donc.

          Or on voit que même en faisant cela, on se fait souvent marcher sur les pieds par ces grandes entreprises aux poches pleines qui préfèrent payer des avocats pour faire ce qu'ils veulent plutôt que jouer dans les règles qu'ils ont eux-même créer. En gros, quand ça s'applique à leurs créations qui ont été contrefaites, tu peux t'assurer qu'ils seront au taquet et que tu n'y échapperas pas. Mais lorsque c'est eux qui contrefont, alors tu es parti pour des années d'enfer judiciaire (en général, tu tentes même pas).

          Comme je disais: justice à 2 vitesses.

          Et c'est pour cela que les gens grognent, même — et en fait surtout — s'ils sont contre le concept de droits d'auteur. On ne peut pas échapper au droit d'auteur, car c'est dans la loi, tout simplement. Alors on fait tout ce qu'on peut, dans ce carcan très resserré, pour l'utiliser dans notre sens. On va mettre des licences permissives mais pas trop non plus (e.g. copyleft), justement pour empêcher ces gens d'utiliser nos œuvres, sauf à jouer dans les sous-règles du jeu qu'on a mises en place (garder la licence même si modification, publier les changements, etc.) à l'intérieur même des règles du jeu de base (qu'on est bien obligé de suivre si on va pas finir attaqué en justice). Sauf qu'on se rend compte que même ça ne fonctionne plus dès qu'il y a suffisamment d'argent en jeu. On comprend alors que ces règles du jeu initiales qui ont été mises en place par ces mêmes groupes de personnes, en fait elles ont été faites pour nous uniquement (les "petits", particuliers, ou petites entreprises/organisations…). Eux n'y sont même pas vraiment contraints.

          C'est ça le problème. C'est frustrant et exaspérant. Et ça n'a rien à voir avec vouloir une "propriété intellectuelle forte". La propriété intellectuelle forte est déjà là. Par défaut, dans la loi, on peut déjà presque rien faire des œuvres de l'esprit d'autrui. C'est difficile de faire plus fort! (mais ceci dit, les avocats de ces entreprises s'y attellent et trouvent toujours le moyen! 😱) Sauf qu'ils font en sorte pour que ça ne s'appliquent qu'aux autres.

          Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]

          • [^] # Re: quel connerie

            Posté par  . Évalué à 2 (+4/-5). Dernière modification le 09 septembre 2025 à 18:12.

            C'est beaucoup trop long pour répondre à tout, et je ne relèverai même pas les arguties absurdes sur la signification de 'sous droit d'auteur'. Mais au moins:

            Ainsi OpenAI a déclaré qu'ils essaient de faire passer l'entraînement AI dans le "fair use" américain (qui jusqu'ici concerne plutôt l'usage de très courts extraits, etc. Notons comme on passe de "courts extraits" à "l'intégralité de l'œuvre" mais dans leurs esprits tordus par les gros sous, ça passe crême).

            C'est clairement faux. Le fair-use n'est pas restreint au droit de citation, et comparer le fair use aux exceptions du droit français ne va nul part.

            Le droit US donne plusieurs critères à considérer pour le fair-use:

            (1) L'objectif et la nature de l'usage, notamment s'il est de nature commerciale ou éducative et sans but lucratif ;
            (2) la nature de l'œuvre protégée ;
            (3) la quantité et l'importance de la partie utilisée en rapport à l'ensemble de l'œuvre protégée ;
            (4) les conséquences de cet usage sur le marché potentiel ou sur la valeur de l'œuvre protégée.

            On voit bien d'ailleurs une différence fondamentale entre le droit US qui est jurisprudentiel et le droit Français. Le CPI donne des exceptions assez claires, alors que le droit US est flou et laisse les tribunaux évaluer la situation.

            Au vu de ces éléments, il est tout à fait possible de plaider que l'entrainement d'un modèle relève du fair-use. Ça n'a rien à voir avec un changement de la loi, c'est juste un argument juridique. Les LLM ne sont pas des serveurs qui stockent et redistribuent les oeuvres, leur objectif n'est pas de concurrencer les distributeurs, le fait qu'ils aient utilisé ces oeuvres est neutre du point de vue financier pour les auteurs (le droit moral n'existe pas aux US). Ils vont plaider ça, et on va bien voir ce que les tribunaux vont décider.

            Pour le reste, je ne vais pas passer des heures sur chaque détail. L'histoire de stockage sur les serveurs pour redistribuer au public n'a à mon avis aucun sens, et la copie technique (RAM, cache etc) est explicitement listée dans les exceptions (exception #6, il faut évidemment que la source soit licite).

            En ce qui concerne la "propriété intellectuelle forte", c'est juste lié aux contours du fair-use. Au final, ce n'est clairement pas ici qu'on peut décider si l'usage d'oeuvres protégées pour l'entrainement des LLM est légale ou non, c'est beaucoup trop complexe et beaucoup trop technique. Mais en tout cas, j'en ai marre de lire que ça serait "évident". Non, il n'y a rien d'évident, et ces discussions sont toujours bourrées de gens qui pensent qu'OpenAI n'ont pas le droit d'utiliser le code sous GPL qu'ils ont mis dans un git public par exemple, et ils prétendent ça sans aucun argument à part qu'ils ne veulent pas. l'entrainement des LLM n'a pas été prévu, ni dans la loi, ni dans les licences libres, et jusqu'à preuve du contraire, plaider le fair-use ne me semble pas absurde du tout, puisque sans cette possibilité le développement des LLM ne serait possible que par d'énormes multinationales qui seraient en mesure de négocier des accords à plusieurs milliards de $$ avec les sociétés d'ayant-droits. Les conséquences pour la société de refuser le fair-use pour l'entrainement des LLM seraient donc majeures.

            • [^] # Re: quel connerie

              Posté par  (site web personnel) . Évalué à 7 (+5/-0).

              Autant tout ce que tu dis avant est plein de bon sens, autant je tique sur cette conclusion:

              Les conséquences pour la société de refuser le fair-use pour l'entrainement des LLM seraient donc majeures.

              A mon avis non. Les conséquences pour la société serait qu'on vivrait comme avant que les IA s'entrainent sur des milliards de documents et on s'en sortait pas trop mal.

              Les conséquences sur les boites qui développent de l'IA seraient majeures mais je crois que ça ne m'empêcherai pas de dormir.

              • [^] # Re: quel connerie

                Posté par  . Évalué à 2 (+0/-0).

                Relire la phrase juste avant ce que tu cites :

                le développement des LLM ne serait possible que par d'énormes multinationales qui seraient en mesure de négocier des accords à plusieurs milliards de $$ avec les sociétés d'ayant-droits.

                Donc ça ne ferait pas disparaître les LLM, ça ferait juste que seuls les GAFAM seraient en mesure de faire des LLM. Exemple (si on considère que OpenAI fait partie des GAFAM, ayant bénéficié de plusieurs dizaines de milliards de Microsoft).

            • [^] # Re: quel connerie

              Posté par  (site web personnel) . Évalué à 4 (+4/-2).

              "C'est beaucoup trop long pour répondre à tout[..]"
              Quelle élégance.

              Méthode bien aimée des extrêmes droites notamment, on fait son petit marché pour répondre un truc qui paraîtra à peu près d'équerre en mettant sous le tapis ses propres réflexions trouées voir faisandées au lieu d'écraser mollement.
              Point bonus : en passant faire passer la réponse de l'interlocuteur pour une litanie malvenue ("je ne relèverai même pas les arguties absurdes […]").

              Tu n'étais pas obligé de répondre, ni de répondre de cette manière.

          • [^] # Re: quel connerie

            Posté par  (site web personnel) . Évalué à 4 (+2/-0).

            Le droit français ne s'applique pas au monde entier.
            Par exemple en Suisse il est légal de visionner un film qui vient d'un endroit douteux, car le législateur dit que l'utilisateur final ne peux pas savoir si le diffuseur à les droits ou pas (c'est qui fait rager les majors).
            Que ça soit la TV national, la chaîne d'un youtubeur ou le site internet de partage de vidéo de Mme Michu.

            Par contre partager en dehors de son cercle familial et d'amis c'est illégal.

          • [^] # Re: quel connerie

            Posté par  . Évalué à 4 (+2/-1).

            Enfin — et c'est surtout ça — on ne peut pas arguer que l'algorithme qui "lit" une œuvre, c'est la même chose qu'un humain qui la lit, apprend et crée à son tour (un argument bidon souvent donné par ces gens en manque d'argument valable). Tout simplement parce que le droit d'auteur n'a jamais marché ainsi! Par défaut, le droit d'auteur ne vous donne droit… à quasi rien!

            C'est méconnaître franchement le fonctionnement de la création. PERSONNE ne crée aujourd'hui une œuvre ex-nihilo; Tolkien s'est inspiré de la guerre qu'il vivait, mais aussi des mythologie nordiques et européennes.

            Il y'a tout une nuance entre le plagia, l'inspiration, la référence. Pour prendre un autre grand nom, plus contemporain : https://www.ina.fr/ina-eclaire-actu/les-rois-maudits-l-oeuvre-qui-inspira-game-of-thrones .

            Bref non effectivement tu n'as pas le droit de repomper une oeuvre et en plus décréter que c'est la tienne, mais tu peux prendre un dragon par la, l'hybrider avec un dragon asiatique, t'inspirer de récit de guerre d'un autre ouvrage pour faire une toile de fond et faire ton épopée épique façon odyssée où tu remplace le bateau par le dragon précédemment crée.

            Par contre ressortir une oeuvre tel quelle n'est pas acceptable, car on rentre dans le plagiat.

            Il ne faut pas décorner les boeufs avant d'avoir semé le vent

        • [^] # Re: quel connerie

          Posté par  (site web personnel) . Évalué à 2 (+0/-0).

          « […] il faudra forcément le nourrir de contenu sous droit d'auteur sans rien reverser aux ayant-droits (à commencer par la littérature scientifique). »

          Tout le reste de votre intervention me paraît fort censée, mais cette parenthèse… comment dire ? Qui donc ignore que l'essentiel de la littérature scientifique est produite par des scientifiques des entités (afin d'ajouter des lignes dans des CV), à titre gracieux ? Qu'elles la soumettent à des éditeurs (souvent bénévoles, payés en lignes de CV), qui la confient à des arbitres (toujours bénévoles) pour l'évaluer, puis d'autres éditeurs (ceux-là non scientifique et non bénévoles) en corrigent le langage l'anglais et la typographie pour en faire une vraie publication, qui ne rapportera d'argent qu'aux actionnaires de l'éditeur et au personnel technique.

          Conclusion : nonobstant les lignes de CV les scientifiques produisent la littérature scientifique dans l'intérêt général. Il est donc parfaitement raisonnable de reprendre leur travaux pour d'autres visées similaires. Même si ce n'est pas strictement légitime, étant donné les procédés d’accaparement des droits mis en places par quelques oligopoles.

          « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace

          • [^] # Re: quel connerie

            Posté par  . Évalué à 4 (+1/-0). Dernière modification le 10 septembre 2025 à 11:02.

            Bah du coup, je ne comprends pas sur quel point on n'est pas d'accord.

            1) Un LLM qui n'aurait pas une grande partie de la littérature scientifique dans ses données d'entrainement ne serait pas pertinent
            2) La littérature scientifique est pour une grande partie produite par des chercheurs payés ou subventionnés par les États ou des structures publiques
            3) Une partie substantielle de la littérature scientifique est publiée dans des journaux détenus par des acteurs privés qui détiennent les droits par des accords de transferts de propriété intellectuelle avec les auteurs
            4) Une fraction de la littérature scientifique récente est disponible sous des licences moins restrictives, soit parce que les publications sont en open access, soit que des versions préliminaires ont été diffusées sous forme de "pre-print". Mais rien de ceci n'existait avant le XXIe siècle, et il existe encore beaucoup d'articles qui ne sont disponibles que sur le site de l'éditeur
            5) Une autre fraction de la littérature est publiée dans des ouvrages édités, et pour ceux-là même les auteurs font tout pour ne pas le rendre disponible sous licence moins restrictive (typiquement, dans certains champs scientifiques, et en particuliers dans les sciences sociales, ces ouvrages sont considérés comme des compléments de revenus pour les chercheurs).
            6) Factuellement, une grande partie de la littérature (sauf les ouvrages) est disponible illégalement sur des plate-formes de type sci-hub (dont le financement et la pérénnité ne sont pas garantis, évidemment)

            Donc les LLM ont actuellement la possibilité de manger la littérature scientifique en aspirant sci-hub. Mais si les procès dont on parle vont jusqu'au bout et que le fair-use n'est pas reconnu pour l'entrairement des LLM, alors il faudra soit payer des milliards aux éditeurs scientifiques pour entrainer un LLM, soit ne l'entrainer que sur un corpus Open Access (souvent sous des licences CC-BY ou plus restrictives, CC-BY-NC ou CC-BY-ND).

            On ne parle pas de légitimité, là (je suis personnellement convaincu qu'en effet, les publications scientifiques devraient toutes légalement être légalement diffusables—peut-être pas modifiables, mais c'est discutable). Le fait est que dans le monde réel, elles ne le sont pas, et que le refus du fait-use pour les LLM engendrerait l'impossibilité d'intégrer le savoir scientifique dans les données d'entrainement. Je ne vois pas qui souhaiterait ça à part les éditeurs prédateurs, mais c'est un fait.

            • [^] # Re: quel connerie

              Posté par  (site web personnel) . Évalué à 2 (+0/-0).

              « Bah du coup, je ne comprends pas sur quel point on n'est pas d'accord. »

              Aucun. Mon intervention n'était probablement pas claire. Je soulignais juste l'oxymore de la juxtaposition des termes reverser et littérature scientifique ; cette dernière étant une sorte d'archétype des mécanismes de spoliation modernes.

              « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.