Lien Github a utilisé tout le contenu public de github pour entrainer Copilot

Posté par Anonyme le 08 juillet 2021 à 11:23.

Étiquettes :

juil.

2021

https://nitter.pussthecat.org/NoraDotCodes/status/1412741339771461635

# à ce détail près:

Posté par Anonyme le 08 juillet 2021 à 11:24. Évalué à 4. Dernière modification le 08 juillet 2021 à 11:26.

Sans tenir compte des licences sous couvert de fair use
# Abus de position

Posté par Narmer le 08 juillet 2021 à 11:53. Évalué à -2.

C'est clairement un abus de position comme savent le faire les GAFAMs …
- [^] # Re: Abus de position
  
  Posté par barmic 🦦 le 08 juillet 2021 à 16:52. Évalué à 3.
  
  Justement non, ils n'ont utilisé que les données publiques aux quelles tu peux accéder via des APIs publiques (et qui sont très utilisées), peut être qu'ils n'ont pas eu à tenir compte de limitation du nombre de requêtes par heure (5k pour le commun des mortel en tout cas en gratuit).
  
  https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
# Ben oui... Et ça refuse toujours de comprendre le sujet

Posté par Zenitram (site web personnel) le 08 juillet 2021 à 12:03. Évalué à 10. Dernière modification le 08 juillet 2021 à 12:05.

… Ceux qui bondissaient parce que ça "parlait" d’œuvre dérivée comme décrite dans la GPL, le sujet n'est pas la GPL, juste de loi sur le "fair use" et assimilé, dès que le code est public donc qu'ils (et moi aussi) ont le droit de le lire (n'en déplaisent à ceux qui parle d'abus de position dominante dans pouvoir avancer le moindre début d’argument cohérent dessus)…

Le sujet est si l'IA est assez intelligente pour ne pas faire de la contrefaçon, quelque soit la licence.

Le lien est en tous cas très parlant, la personne écrivant n'ayant pas compris que son code peut être lu (et ce n'est pas une affaire de respect du copyright, c'est à l'auteur des tweet de prouver que GitHub ne respecte pas le "fair use", bon courage car c'est loin d'être évident), et qu'on a le droit d'apprendre de son code et écrire en ayant une formation grâce à son code sans devoir respecter sa licence, et que ça s'applique autant aux humains qu'aux IA.

Si vous ne voulez pas qu'on lise votre code, ne le publiez pas, sinon on a le droit de le lire et d'apprendre à partir de lui, de manière manuelle (pas nouveau) ou automatisée (nouveau là, mais ne change pas grand chose au principe de base qui ne dérangeait pas).

En tous cas, c'est amusant de voir des gens se disant "ouverts" avoir le même comportement que des grosses entreprises ou des "majors" à hurler contre le "fair use", l'évolution technologique est pleine de surprise et bientôt les pro-GPL vont être main dans la main avec les gens voulant cacher le code contre le "fair use" :). Beaucoup se sont déjà cassé les dents à vouloir interdire du "fair use", ça n'est qu'une n-ième attaque.
- [^] # Re: Ben oui... Et ça refuse toujours de comprendre le sujet
  
  Posté par steph1978 le 08 juillet 2021 à 14:30. Évalué à 8.
  
  Je plussois ces deux éléments :
  
  Si vous ne voulez pas qu'on lise votre code, ne le publiez pas, …
  
  et
  
  En tous cas, c'est amusant de voir des gens se disant "ouverts" avoir le même comportement que des grosses entreprises ou des "majors" à hurler contre le "fair use" …
  
  Ceux qui sont pour la copie privée ne semble pas pour la copie publique :)
- [^] # Re: Ben oui... Et ça refuse toujours de comprendre le sujet
  
  Posté par Elfir3 le 08 juillet 2021 à 14:51. Évalué à 5.
  
  le sujet n'est pas la GPL, juste de loi sur le "fair use" et assimilé, dès que le code est public donc qu'ils (et moi aussi) ont le droit de le lire
  
  Les règles du fair use c'est loin du "c'est public, donc je peux".
  
  J'ai au moins un argument pour les points considérés dans le lien :
  - Purpose and character of the use: le fait que ce soit l'utilisation soit commercial
  - Nature of the copyrighted work: la nature du matériel, sous licence GPL donc mise en place pour que les travaux dérivés ou liés soient aussi sous licence compatible
  - Amount and substantiality of the portion used in relation to the copyrighted work as a whole: c'est le projet complet qui est utilisé, par une portion parce que spécifique
  - Effect of the use upon the potential market for or value of the copyrighted work: cette IA permet d'écrire des logiciels concurrents sur base du code, donc diminuer les parts de marché du code sous GPL
  
  Bon, le dernier est un peu capillo-tracté, mais j'aurais tendance à dire que parler de fair use dans le cas de logiciels sous GPL est osé.
  
  Merci de prendre le commentaire ci-dessus avec: un peu de recul, le premier degré, et si possible le second !
# Une réaction rigolote

Posté par Zenitram (site web personnel) le 08 juillet 2021 à 12:10. Évalué à 1.

https://nitter.pussthecat.org/IamMelong/status/1412861525614866446

(rappelons qu'un dictionnaire est tout autant soumis à copyright qu'une logiciel sous GPL)
- [^] # Re: Une réaction rigolote
  
  Posté par Yth (Mastodon) le 08 juillet 2021 à 12:48. Évalué à 9.
  Mais pas son contenu, il y a antériorité sur l'usage de tous les mots inclus dans le dictionnaire.
  
  Mais bon, de toute façon avec le code la notion d’œuvre dérivée a toujours été un brin floue.
  
  Si on se place au niveau de la fonction, si on a la même interface il n'y a pas une infinité de façon de coder le contenu, et il est aisé de faire un code fonctionnellement et algorithmiquement identique à celui d'un autre sans même l'avoir lu.
  De là à dire qu'on peut repomper quasiment texto n'importe quelle fonction trouvée n'importe où, en adaptant les noms et le style à sa propre base de code…
  Difficile de faire la différence entre le copié-collé-adapté et la réinvention.
  
  Par contre sur l'ensemble d'une classe, ou d'une bibliothèque, ou sur une façon d'organiser une portion du code, c'est plus facile de voir qu'on a réutilisé de l'existant, même adapté.
  
  Là, l'IA s'inspire pour suggérer du code au niveau où on en est dans l'écriture d'une fonction, un truc du genre ?
  Est-ce qu'on peut imaginer que ça repompe des façon de coder d'un autre projet ? Toute une organisation ? Une classe ou une lib ?
  
  J'en doute, mais je n'en sais rien en vrai.
  
  Franchement, cette histoire de copilot me pose des problème sur la qualité du code produit, et l'intérêt réel de la chose, pas tellement sur d'éventuels soucis de licence…
  Ce truc va pas re-pondre un gimp, un firefox ou un scribus.
  - Yth.
  - [^] # Re: Une réaction rigolote
    
    Posté par raphj (site web personnel) le 08 juillet 2021 à 12:55. Évalué à 6.
    
    Est-ce qu'on peut imaginer que ça repompe des façon de coder d'un autre projet ? Toute une organisation ? Une classe ou une lib ?
    
    Je ne m'y connais pas assez pour pouvoir affirmer que ce n'est pas intrinsèque à la technique (je suis ouvert à l'idée qu'une telle IA puisse éviter ça).
    
    Par contre, pour GitHub Copilot, il n'y a pas besoin de l'imaginer, elle le fait : https://twitter.com/mitsuhiko/status/1410886329924194309
    
    Peut-être que les cas où ça a été observé, les gens ont bidouillé et poussé l'IA à recracher du code tel quel, mais ça veut dire que rien ne garantit qu'elle ne le fait pas, et que ça pourrait aussi bien arriver dans un cas normal d'utilisation sans qu'on s'en rende compte.
    - [^] # Re: Une réaction rigolote
      
      Posté par Yth (Mastodon) le 08 juillet 2021 à 16:29. Évalué à 5.
      Alors là mon avis est très clair :
      Le code a été recopié tel-quel, que ce soit un humain ou une IA qui l'a fait, il y a bien violation de licence (puisque copilot affirme que le code qu'il a généré pour toi t'appartient toi).
      
      Ce qui ouvre un univers entier de bordel en perspective…
      
      Yth.
  - [^] # Re: Une réaction rigolote
    
    Posté par Anonyme le 08 juillet 2021 à 14:59. Évalué à 3.
    
    Si on se place au niveau de la fonction, si on a la même interface il n'y a pas une infinité de façon de coder le contenu, et il est aisé de faire un code fonctionnellement et algorithmiquement identique à celui d'un autre sans même l'avoir lu.
    
    Y a quantité d’exemple qui démonte cette affirmation, au hasard regarde l’implémentation de strcpy (mais ça vaut pour tout le reste) dans musl et dans la glibc, c’est un truc qui est super simple et pourtant les deux n’ont aucune ressemblance.
    - [^] # Re: Une réaction rigolote
      
      Posté par Yth (Mastodon) le 08 juillet 2021 à 16:18. Évalué à 2.
      Alors attention :
      Je n'ai pas dis que ça va forcément se ressembler même pour une fonction ultra-simple.
      Il y a toujours plein de façon de faire les choses.
      
      Ce que je dis c'est qu'il n'y en a pas une infinité, et largement pas une par codeur en tout cas, et qu'on peut facilement reproduire un truc de façon extrêmement similaire sans le faire exprès.
      
      Deux fonctions - ayant la même fonction - peuvent aisément se ressembler sans avoir de lien de parenté, mais ça ne signifie pas qu'il n'est pas possible - ou même courant, ou même tout aussi aisé - d'avoir deux fonctions très différentes aussi !
      
      Yth.
  - [^] # Re: Une réaction rigolote
    
    Posté par moi1392 le 09 juillet 2021 à 15:07. Évalué à 3.
    
    Mais pas son contenu, il y a antériorité sur l'usage de tous les mots inclus dans le dictionnaire.
    
    Je t'ai peut être mal compris, mais à priori ce ne sont pas les mots qui sont important, c'est leur agencement.
    Autrement dit, dans le dico, il y a des mots et des définitions.
    Sinon ça serait pareil pour n'importe quel livre ou code source, tous les mots qui y sont (mis à part des noms propres, ou de variables/fonctions très tordus) ont déjà été utilisés ailleurs
    - [^] # Re: Une réaction rigolote
      
      Posté par Yth (Mastodon) le 10 juillet 2021 à 09:48. Évalué à 1.
      Le message d'origine concernant le copyright du dictionnaire est le suivant :
      
      Can I sue you for using english words that you learnt from a dictionary? 'cause it sounds like that's what you're complaining about.
      
      Que je traduis par :
      
      Puis-je t'attaquer en justice pour ton utilisation de mots anglais que tu as appris dans un dictionnaire ? Parce que ça ressemble à ce dont tu te plains.
      
      Il est question ici d'utiliser les entrées du dictionnaire, et pas leurs définitions telles quelles, ou leur agencement.
      
      Yth.
# Clair depuis le début ?

Posté par raphj (site web personnel) le 08 juillet 2021 à 12:45. Évalué à 7. Dernière modification le 08 juillet 2021 à 12:49.

Au final c'est cohérent : s'il n'y a pas besoin de respecter la GPL, il n'y a besoin de respecter aucune licence. Il n'y a donc pas de raison de se limiter aux licences libres.

En fait, il n'y a même pas besoin de se limiter au code disponible publiquement, ils auraient aussi bien pu également entraîner leur IA sur leur code privé et sur le code privé de leurs clients. Pourquoi ne le font-il pas ? Ça aurait un intérêt pour pouvoir reproduire leur travail à partir des mêmes données mais je ne suis pas certain qu'ils soient dans cette démarche : ils auraient ouvert le code de Copilot sinon.

Peut-être qu'ils ne le font pas parce qu'ils ont peur que leur IA recrache du code non public / confidentiel tel quel ? Oui, à leur place j'aurais peur de ça je crois. Du coup, on prend le risque de ne pas respecter les licences mais pas celui de mettre de fuiter des trucs confidentiels. Ou que leurs clients ne soient pas contents ? Deux poids, deux mesures ?

Assistons-nous finalement à une instance de si c'est gratuit, c'est vous le produit¹ avec GitHub ?

Que de questions.

¹: à noter que cette phrase s'applique mal dans beaucoup de cas, je ne suis pas particulièrement fan de cette phrase sans contexte
- [^] # Re: Clair depuis le début ?
  
  Posté par Zenitram (site web personnel) le 08 juillet 2021 à 13:06. Évalué à -2.
  
  peut-être qu'ils ne le font pas parce qu'ils ont peur que leur IA recrache du code non public / confidentiel tel quel ?
  
  Parce que les auteurs de ce code n'ont pas dit "Quiconque a la liberté de lire le code", donc ils n'ont pas le droit et donc ne le font pas (autrement que ce pour quoi les utilisateurs ont signé, donc de la gestion de repo).
  GitHub respecte la volonté des auteurs :), juste que des auteurs n'ont pas compris qu'ils donnaient à tous ceux qui ont l'URL la liberté de lire.
  
  Assistons-nous finalement à une instance de si c'est gratuit, c'est vous le produit¹ avec GitHub ?
  
  Le code était déjà analysé avant par d'autres, ça a toujours été le cas… Mais aussi, tu le regardes du mauvais sens : c'est juste que le code vit avec sa liberté (ici celle d'être lu), il n'y a pas de produit, juste un auteur qui autorise qu'on lise son code. Rappelons que le libre est contre l'auteur upstream, il lui arrache des libertés qu'il donne à celui qui reçoit (et ici GitHub a reçu le code donc…).
  - [^] # Re: Clair depuis le début ?
    
    Posté par raphj (site web personnel) le 08 juillet 2021 à 13:18. Évalué à 5. Dernière modification le 08 juillet 2021 à 13:21.
    
    Parce que les auteurs de ce code n'ont pas dit "Quiconque a la liberté de lire le code", donc ils n'ont pas le droit et donc ne le font pas (autrement que ce pour quoi les utilisateurs ont signé, donc de la gestion de repo).
    
    Bon point, le fair use ne peut pas s'appliquer sur du code que tu n'es pas censé lire. (😅). Ils pourraient le faire sur leur propre code par contre.
    
    Pour le reste, tu pars du principe qu'une utilisation comme celle de GitHub est bien fair use, et que c'est bien équivalent à lire du code en tant qu'humain et s'en inspirer / apprendre dans le sens d'un humain. En présupposant ce principe tout ton discours est cohérent, mais il ne semble pas que cela fasse consensus. Je serais plus prudent / humble dans les affirmations. La question n'est pas si évidente.
    
    Donc :
    
    juste que des auteurs n'ont pas compris qu'ils donnaient à tous ceux qui ont l'URL la liberté de lire.
    
    Je pense qu'ils ont compris ça, mais qu'ils ne sont pas du même avis que toi sur la question. Au final tu as peut-être raison et on peut espérer pour GitHub qu'ils ont bien étudié la question avec leurs avocats, perso pour le moment je préfère rester prudent et autant respecter cette position différente de la tienne.
    
    (bon dans le cas de Copilot pour le moment ça recrache bel et bien du code donc pour moi c'est mort, mais on peut espérer pour eux qu'ils vont corriger ça… si c'est possible).
    - [^] # Re: Clair depuis le début ?
      
      Posté par Zenitram (site web personnel) le 08 juillet 2021 à 13:29. Évalué à -2.
      
      mais il ne semble pas que cela fasse consensus.
      
      Qui hormis le gens qui ne veulent pas qu'on puisse s'inspirer de leur code dit que c'est illégal (sur bases bancales)?
      
      Je ne doute pas un instant que les avocats de Microsoft aient regardé ça, je fais plus confiances aux avocats qu'à des fans de copyleft prompts à dégainer "violation de mon copyright" au moindre usage des droits qu'ils ont conféré qui ne leur plaît pas.
      
      L'avenir nous dira ce qu'il en est.
      - [^] # Re: Clair depuis le début ?
        
        Posté par raphj (site web personnel) le 08 juillet 2021 à 13:53. Évalué à 4. Dernière modification le 08 juillet 2021 à 13:55.
        
        Qui hormis le gens qui ne veulent pas qu'on puisse s'inspirer de leur code dit que c'est illégal (sur bases bancales)?
        
        C'est une tournure malhonnête / de mauvaise foi. Ça ne me dit pas de raisonner si la malhonnêteté est dans l'équation.
        
        des fans de copyleft
        
        Ce n'est pas qu'une histoire de copyleft, tu le dis toi-même, les licences permissives requièrent également l'attribution.
        
        confiances aux avocats
        
        Oui, on peut espérer qu'ils font bien leur boulot, et il n'y a pas de raison de croire que ça n'est pas le cas. Le droit n'est pas une science exacte cela dit, je serais intéressé par des avis complémentaires d'autres avocats.
        
        L'avenir nous dira ce qu'il en est.
        
        Exactement !
        
        [^] # Re: Clair depuis le début ?
        
        Posté par claudex le 08 juillet 2021 à 13:59. Évalué à 6.
        
        Oui, on peut espérer qu'ils font bien leur boulot, et il n'y a pas de raison de croire que ça n'est pas le cas. Le droit n'est pas une science exacte cela dit, je serais intéressé par des avis complémentaires d'autres avocats.
        
        On peut aussi imaginer que les avocat de GitHub/Microsoft on regardé si la société était attaquable. Ça ne veut pas dire que quelqu'un d'externe qui utiliserait Copilot ne le serait pas.
        
        GitHub peut très bien se défendre en disant "on a mis un outil à disposition, charge à vous de vérifier que vous l'utiliser correctement (d'ailleurs, Github a aussi un outil qui permet de vérifier si on a du code public dans son code source).
        
        « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
        
        [^] # Re: Clair depuis le début ?
        
        Posté par Anonyme le 08 juillet 2021 à 15:35. Évalué à 7.
        
        GitHub peut très bien se défendre en disant "on a mis un outil à disposition, charge à vous de vérifier que vous l'utiliser correctement (d'ailleurs, Github a aussi un outil qui permet de vérifier si on a du code public dans son code source).
        
        Ils disent plus que ça, ils disent que le code appartient à celui qui le fait générer.
        
        Do I need to credit GitHub Copilot for helping me write code?
        
        No, the code you create with GitHub Copilot’s help belongs to you. While every friendly robot likes the occasional word of thanks, you are in no way obligated to credit GitHub Copilot. Just like with a compiler, the output of your use of GitHub Copilot belongs to you.
        
        Après ils disent aussi des trucs complètement faux comme :
        
        Does GitHub Copilot recite code from the training set?
        
        GitHub Copilot is a code synthesizer, not a search engine: the vast majority of the code that it suggests is uniquely generated and has never been seen before
        
        Démonté par le fait que des gens aient réussis à sortir des clefs d’API privées :
        
        Linus Groh sur Twitter
        
        et un article sur FOSSBYTES.
        
        Copilot reproduit aussi à l’identique une fonction très particulière de Quake 3 (indiqué dans l’article sus mentionné).
        
        [^] # Re: Clair depuis le début ?
        
        Posté par arnaudus le 09 juillet 2021 à 10:09. Évalué à 6.
        
        Ils disent plus que ça, ils disent que le code appartient à celui qui le fait générer.
        
        Ça, c'est bien débile. Si Mr A génère du code en 2021 et l'inclut dans son soft proprio, et Mr B génère le même code en 2022 et l'inclut dans son code GPL et le publie, alors Mr A serait en droit de poursuivre Mr B pour contrefaçon?
        
        J'ai l'impression qu'ils vivent dans un monde merveilleux où leur AI n'est pas toute pétée et ressort du code original et différent à chaque requête. Or, il semble au contraire que leur AI est toute pourrie, qu'elle est overfittée et ressort verbatim du code de sa base, et qu'elle est déterministe, ce qui fait qu'il est tout à fait possible de lui faire sortir deux fois le même code.
        
        Et de toutes manières, il est théoriquement impossible de faire valoir des droits d'auteur sur quelque chose qui n'est pas une œuvre de l'esprit. Donc le code automatique devrait être dans une sorte de domaine public sans droits moraux, il n'appartient pas du tout à celui qui utilise l'algorithme.
        
        Je n'ai pas l'impression qu'ils soient particulièrement au point niveau droit d'auteur, chez GitHub.
        
        [^] # Re: Clair depuis le début ?
        
        Posté par moi1392 le 09 juillet 2021 à 15:14. Évalué à 5.
        
        De toute façon au final, le code appartient à ceux qui ont la plus grosse armée d'avocats.
        Donc de leur point de vue, quand ils l'utilisent en interne, ils ont raison, le code leur appartient bien en effet…
        
        [^] # Re: Clair depuis le début ?
        
        Posté par Anonyme le 09 juillet 2021 à 15:38. Évalué à 6.
        
        J'ai l'impression qu'ils vivent dans un monde merveilleux où leur AI n'est pas toute pétée et ressort du code original et différent à chaque requête. Or, il semble au contraire que leur AI est toute pourrie, qu'elle est overfittée et ressort verbatim du code de sa base, et qu'elle est déterministe, ce qui fait qu'il est tout à fait possible de lui faire sortir deux fois le même code.
        
        Ouais, bienvenue dans le monde de l’AI, c’est comme ça partout.
        
        Mais bon, ça permet de génèrer de la croissance en cramant l’équivalent du Bangladesh en électricité sur des GPU hors de prix.
        
        [^] # Re: Clair depuis le début ?
        
        Posté par arnaudus le 09 juillet 2021 à 15:51. Évalué à 4.
        
        c’est comme ça partout.
        
        Les joueurs d'échecs pro qui se prennent > 1000 Elo par les AI sont probablement en désaccord :-)
        
        Il y a des IA qui fonctionnent. C'est juste qu'il faut savoir le faire et mettre les moyens pour que ça marche. Et il y a aussi de nombreux domaines où les systèmes experts classiques fonctionnent très bien, soit par l'application d'algorithmes mis en place par des experts humains, soit par l'analyse mathématique quand les règles sont simples (par ex. théorie des jeux) soit par l'utilisation de méthodes statistiques traditionnelles (régression).
        
        L'analyse d'image semble bien marcher avec le machine learning et les réseaux de neurones, par exemple, non?
        
        [^] # Re: Clair depuis le début ?
        
        Posté par Anonyme le 09 juillet 2021 à 18:17. Évalué à 3.
        
        Les joueurs d'échecs pro qui se prennent > 1000 Elo par les AI sont probablement en désaccord :-)
        
        Stockfish n’a pas besoin d’IA pour battre n’importe quel GM ou super GM en activité (l’IA dans Stockfish est un truc super récent).
        
        [^] # Re: Clair depuis le début ?
        
        Posté par Anonyme le 09 juillet 2021 à 18:20. Évalué à 4. Dernière modification le 09 juillet 2021 à 18:21.
        
        L'analyse d'image semble bien marcher avec le machine learning et les réseaux de neurones, par exemple, non?
        
        Non.
        
        Déjà, il y a énormément de problèmes liés aux biais des développeurs et des bases de données utilisées pour l’entraînement.
        
        Et puis il y aussi des trucs rigolo comme écrire iPod sur une pomme pour que l’IA la détecte comme un iPod.
        
        [^] # Re: Clair depuis le début ?
        
        Posté par barmic 🦦 le 10 juillet 2021 à 17:47. Évalué à 2.
        
        Par IA qui est un terme très vaste et qui manque de sens, si on entends tout ce qui est apprentissage non supervisé ce qui est le cas de tout ce qui crée de l'engouement actuellement, hors cas précis ça ne marche globalement pas et on est juste pas en capacité de donner une mesure de l'erreur.
        
        Les gens qui produisent ces choses vivent avec la croyance que le machine learning non supervisé peut tout faire si on lui donne suffisamment de données et que toute critique se traduit par il manque des données d'apprentissage. Rien est fait pour s'assurer de la qualité des données d'entrée, ni pour éviter les biais, on arrive à des résultats au mieux médiocres au pire on ne le voit pas tout de suite mais totalement biaisés.
        
        Il y a des solutions à ça :
        
        ne pas virer son service éthique
        
        se poser la question des biais dans les données qu'on fourni
        
        intégrer dans les données que l'on fourni, la manière dont elles ont étaient récupérées (pour que l'algo lui-même prennes en compte les biais)
        
        intégrer de l'expertise du domaine
        
        Il y a des gens qui travaillent dessus, mais c'est balbutient.
        
        https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
    - [^] # Re: Clair depuis le début ?
      
      Posté par arnaudus le 08 juillet 2021 à 13:57. Évalué à 2. Dernière modification le 08 juillet 2021 à 13:57.
      
      mais il ne semble pas que cela fasse consensus.
      
      C'est bien vague. De quoi parle-t-on? 1) Rien dans la GPL n'interdit cette utilisation; 2) La licence GPL ne pourrait s'appliquer qu'au travail dérivé. Il faudrait donc démontrer que le code produit par l'algorithme puisse être qualifié de travail dérivé, ce qui ne peut se faire qu'au cas par cas.
      
      D'une manière totalement indépendante, quelques exemples publiés montrent que la fameuse IA n'en n'est pas une du tout : il semble s'agit d'une sorte de moteur de recherche / autocomplétion. Soit l'algorithme est complètement daubé, soit l'IA est overfittée à mort (typiquement, elle ressort les données d'entrainement). L'exemple sur le code de Quake suggérait même que l'IA ressortait du texte de licence, c'est à dire qu'elle a été entrainée avec les licences incluses (!). On serait donc très loin d'une IA fonctionnelle.
      - [^] # Re: Clair depuis le début ?
        
        Posté par raphj (site web personnel) le 08 juillet 2021 à 14:03. Évalué à 6. Dernière modification le 08 juillet 2021 à 14:06.
        
        La question dépasse la GPL et le texte des licences, libres ou non d'ailleurs. C'est une question de droit d'auteur, donc faut regarder la loi. Ça varie d'ailleurs probablement un peu par pays, même si les lois derrières les questions de droits d'auteurs sont relativement compatibles à travers une bonne partie du monde.
        
        Il faudrait donc démontrer que le code produit par l'algorithme puisse être qualifié de travail dérivé, ce qui ne peut se faire qu'au cas par cas
        
        Exactement. Le problème c'est qu'on voudrait plutôt démontrer que le code produit par l'algorithme n'est pas un travail dérivé pour que son utilisation soit sûre. Ce qui est un peu compliqué.
        
        [^] # Re: Clair depuis le début ?
        
        Posté par arnaudus le 08 juillet 2021 à 14:23. Évalué à 3.
        
        Le développement des IA va de toutes manières rendre ce type de plaintes régulières. Il va y avoir des IA capables d'écrire des livres; certains passages vont ressembler à des œuvres existantes et ça va poser problème, etc. Sans modification de la loi, j'ai l'impression que ça ne pas pas aller très loin. une IA bien conçue (donc pas le truc de GitHub, on est d'accord) ne peut pas ressortir les données qu'elle a ingurgitées lors de son entrainement. Les concepteurs de l'IA pourront d'ailleurs facilement prouver leur bonne foi, par exemple par de la validation croisée (on ne propose à l'utilisateur que du code consensuellement proposé par deux IA entrainées avec des bases de codes indépendantes).
        
        Bref, avec des fausses IA moisies, oui, il y a un risque de contrefaçon. Avec de vraies IA, il sera facile de prouver l'absence de contrefaçon.
        
        Si la loi évolue pour qualifier la production d'une IA de travail dérivé par le simple fait que l'œuvre originale faisait partie du jeu de données d'entrainement, alors la situation sera différente. Mais je doute qu'une telle évolution soit possible (ni souhaitable), et je doute que ça change quoi que ce soit. Par exemple, les meilleurs IA aux échecs ne sont plus entrainées à partir de parties entre humains (imparfaites), mais sur la base de parties jouées contre elle-même. Je ne vois pas ce qui empêcherait une vraie IA d'apprendre à coder elle-même plutôt que de s'entrainer sur des bouts de code de qualité douteuse.
        
        [^] # Re: Clair depuis le début ?
        
        Posté par claudex le 08 juillet 2021 à 14:31. Évalué à 4.
        
        Je ne vois pas ce qui empêcherait une vraie IA d'apprendre à coder elle-même plutôt que de s'entrainer sur des bouts de code de qualité douteuse.
        
        Je ne suis pas du tout un spécialiste du domaine, mais si tu parles dans l'absolu, je suis d'accord. Mais là tout de suite, je pense qu'on manque de validation pour entraîner le modèle. Il faudrait une grosse base de test pour l’entraînement pour borner ce qu'il faut génerer (aux échecs, c'est plus simple, il y a un score et une victoire).
        
        « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
        
        [^] # Re: Clair depuis le début ?
        
        Posté par arnaudus le 08 juillet 2021 à 14:56. Évalué à 2.
        
        Si c'était facile, ça serait déja fait :-) GitHub pourrait par exemple se créer une base de données de fonctions, plutôt que de contenu de fonctions. Si tu trouves dans ta base de données 150 fonctions qui ont le même prototype, des noms de variables et des commentaires qui font penser à ton IA qu'elles font des choses proches, alors tu dois pouvoir bricoler quelque chose. Dans une tout autre optique, tu pourrais aussi imposer un format d'autodocumentation suffisamment précis pour que l'IA apprenne en temps réel.
# IA moisie ?

Posté par steph1978 le 08 juillet 2021 à 14:44. Évalué à 6.

(Un peu HS car sur des considérations techniques et non légales)

Les retours sur la pertinence de GH/Copilot semble monter qu'elle est pas terrible. Je ne sais pas si j'ai pas lu 40% de pertinence dans un papier de GH. À se demander pourquoi ils ont lancé le produit, même en beta.

En même temps l'hypothèse de base est hasardeuse, IMHA. Elle suppose que le code qui a été ingurgité par l'IA est bien commenté sur ce qu'il fait. Les vidéos de démo sont criante : l’utilisateur tape en commentaire l'algo qu'il veut écrire et l'IA est sensé lui proposer. Saut que ça suppose qu'en entré, l'auteur du code correctement expliqué ce qu'il faisait dans son code.

Or, pour avoir lu des centaines milliers et accessoirement en avoir produit des milliers, ce n'est pas le cas. Ou alors sur des morceaux particulièrement bien choisi.

Bref, j'ai l'impression que ce produit va être un naufrage légal et technique pour GH. On verra.
# Commentaire supprimé

Posté par Anonyme le 08 juillet 2021 à 17:26. Évalué à 2. Dernière modification le 08 juillet 2021 à 17:29.

Ce commentaire a été supprimé par l’équipe de modération.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.