Lien Stack Overflow bans users en masse for rebelling against OpenAI partnership

Posté par sobriquet le 09 mai 2024 à 21:38.

Étiquettes :

mai

2024

https://www.tomshardware.com/tech-industry/artificial-intelligence/stack-overflow-bans-users-en-masse-for-rebelling-against-openai-partnership-users-banned-for-deleting-answers-to-prevent-them-being-used-to-train-chatgpt

# bonne idée

Posté par zurvan le 09 mai 2024 à 22:09. Évalué à 7.

Je viens d'effacer une partie des réponses que j'avais faite sur cette plateforme. C'est triste d'en arriver là, et ça n'arrêtera probablement pas ce cancer qu'est openai (et assimilés), mais c'est déjà un pas.

"Ce n'est pas à l'état de tout savoir sur ses citoyens, mais au citoyen de tout savoir sur l'état."
- [^] # Re: bonne idée
  
  Posté par Faya le 09 mai 2024 à 23:51. Évalué à 8.
  
  Au-delà de OpenAI, le seul truc à en tirer (si ce n'était déjà fait, on est quand même sur LinuxFR…) est cité dans l'article :
  
  just a reminder that anything you post on any of these platforms can and will be used for profit. It's just a matter of time until all your messages on Discord, Twitter etc. are scraped, fed into a model and sold back to you.
  - [^] # Re: bonne idée
    
    Posté par zurvan le 10 mai 2024 à 00:01. Évalué à 5.
    
    ouais.
    
    Leur réaction a été rapide :
    
    You have recently removed or defaced content from your posts. Please note that once you post a question or answer to this site, those posts become part of the collective efforts of others who have also contributed to that content. Posts that are potentially useful to others should not be removed except under extraordinary circumstances. Even if the post is no longer useful to the original author, that information is still beneficial to others who may run into similar problems in the future - this is the underlying philosophy of Stack Exchange.
    
    Extensive deletions take a lot of effort to repair; please read "I’ve thought better of my question; can I delete it?" for possible alternatives. Because of the amount of disruption these incidents can cause, we have placed your account on hold for 30 days while we reach out to you to avoid any further misunderstandings. Once this matter has been resolved, your reputation score will be restored and your account will resume as normal.
    
    If you have concerns about the OpenAI partnership, take it up with Stack Overflow, Inc. directly. Moderators are just volunteers and do not work for the company, and directing objections at us (or the community in general) isn't going to get you anywhere. Adding protest notices to your posts doesn't do anything aside pollute the currently human-driven Q&A. As an aside, most data on the public internet has likely already been scraped into training data - on Stack Overflow, this happened long before the OpenAI partnership. If you're concerned about how your content is used by AIs, it's far more impactful to stop producing more content anywhere on the internet, or continue fighting against its use on platforms known to get rid of genAI content.
    
    de toute façon je n'ai pas l'intention de retourner sur leur site
    
    "Ce n'est pas à l'état de tout savoir sur ses citoyens, mais au citoyen de tout savoir sur l'état."
- [^] # Re: bonne idée
  
  Posté par Luc-Skywalker le 10 mai 2024 à 00:00. Évalué à 5.
  
  Bonne idée, je ne sais pas, car du contenu en ligne pertinent qui disparaît c'est effectivement dommage.
  
  Mais je comprends tout à fait l'action:
  
  Les quelques fois ou j'ai utilisé ChatGPT (pour pondre du code) m'ont laissées le sentiment désagréable de "former" (je ne sais si le terme est bien choisi) une IA pour le compte de la société privée qui la possède.
  J'ai décidé d'arrêter de faire cela pour le moment en attendant d'y voir plus clair.
  
  Mais là aussi, c'est dommage. Car en quelques interactions j'arrivais au résultat attendu, ce qui s'avérait bien plus rapide que si je l'avais codé moi même avec mon clavier.
  
  "Si tous les cons volaient, il ferait nuit" F. Dard
  - [^] # Re: bonne idée
    
    Posté par thoasm le 10 mai 2024 à 11:05. Évalué à 3.
    
    Plutôt pas bien choisi je pense, au moins dans un premier temps. Le modèle ne garde aucune mémoire des interactions que tu as avec lui.
    
    Potentiellement par la suite par contre si jamais openai se sert des interactions passées pour l'entraînement ou l'ajustement de ses modèles ultérieurs, pas forcément dit que ce soit une bonne idée de reinjecter n'importe comment les interactions passées par contre, pas du tout dit qu'ils le fassent a mon avis.
    - [^] # Re: bonne idée
      
      Posté par Luc-Skywalker le 10 mai 2024 à 17:54. Évalué à 2.
      
      Merci pour les précisions. C'est justement le genre d'informations dont j'ai besoin pour m'éclaircir les idées (d'un autre côté, ce n'est pas mon dada du moment, je ne passe pas mon temps à me documenter sur la chose).
      
      "Si tous les cons volaient, il ferait nuit" F. Dard
    - [^] # Re: bonne idée
      
      Posté par Misc (site web personnel) le 11 mai 2024 à 09:31. Évalué à 2.
      
      Mais tu n'as pas une phase ou tu dois taguer et/ou traiter les textes plus ou moins manuellement ?
      
      Je trouve des trucs sur la modération de ChatGPT par des humains, mais aussi un article sur le data labeling par des travailleurs au Kenya.
      - [^] # Re: bonne idée
        
        Posté par thoasm le 13 mai 2024 à 13:05. Évalué à 2.
        
        Le tri/recoltage du corpus a une phase manuelle en amont genre pour éviter d'incorporer des contenus nazis ou ce genre de choses oui effectivement, mais ce n'est pas lors de l'utilisation.
        
        Il semble y avoir un processus ou ça pourrait intervenir par contre, j'ai lu que chatgpt génère plusieurs réponse et leur donne un score, et là le pouce vers le bas qu'il y a dans leur interface en retour utilisateur pourrait être utilisé pour la procédure de notation.
        
        Il y a potentiellement aussi la phase de "fine-tuning" qui intervient après l'apprentissage brut pour spécialiser le modèle à certaines tâches qui pourrait utiliser les interactions avec les utilisateurs, en l'occurrence pour un chat or pour que l'interaction ait plus l'air d'un dialogue (les réponses générées pas trop longues, ce genre de trucs), ou les dialogues utilisateurs pourraient être reinjectés, mais si j'en crois mes lectures il suffirait de donner de l'ordre de la centaine d'exemple donc peu de chances que les dialogues de toi ou moi soient utilisés pour ça.
# IA y a

Posté par Benoît Sibaud (site web personnel) le 10 mai 2024 à 08:21. Évalué à 10.
- même sans partenariat, les IA se servent dans les contenus disponibles en ligne, y compris sur LinuxFr.org. voir https://linuxfr.org/users/oumph/journaux/linuxfr-org-seconde-quinzaine-d-avril-2024 pour le ClaudeBot par exemple.
- une équipe de modération ou d'administration d'un site à contenus produits par le lectorat voit toujours d'un mauvais œil la suppression de contenus : ça fait perdre un peu de l'intérêt au site, ça revient sur un choix de licence préalablement fait, ça peut altèrer les contributions d'autres personnes (co-auteurs, commentaires en réponse, etc.), ça peut avoir un côté égoïste (je suis colère alors tout le monde va subir), ça pose des problèmes légaux (droits en opposition), etc. À part lorsqu'il s'agit de virer les contenus très mal notés ou problématiques, ces équipes préféreraient les garder.
- bloquer chaque bot d'IA semble techniquement un peu vain (il y en a plein et il doit en apparaître de nouveau chaque jour) et pas forcément une bonne idée (on a des contenus sous licence libre, c'est aussi vrai pour eux… et si on veut que nos thématiques soient présentes en français dans les réponses, il faut être indexé)
- les problématiques restent les mêmes au final : quid de l'attribution, la source et du respect des licences des contenus ingérés ? Veut-on des réponses approximatives/fausses/hallucinées omniprésentes partout (en contenus/commentaires "légitimes" ou pire en spam/scam…)
- faut-il continuer cette frénésie de l'IA ? Ça ne dépend de moi de toute façon, les impacts environnementaux, techniques et sociétaux négatifs sont déjà visibles. Les impacts positifs (pour LinuxFr.org) ne sont pas visibles pour l'instant.
- [^] # Re: IA y a
  
  Posté par zurvan le 10 mai 2024 à 09:43. Évalué à 9.
  
  il ne donne pas envie ce claudebot : https://www.reddit.com/r/singularity/comments/1cdm97j/anthropics_claudebot_is_aggressively_scraping_the/
  
  le journal que tu pointes semble confirmer cela, si cela prend parfois la moitié des requêtes.
  
  Et après ce sont toutes ces compagnies hi tech qui vont venir faire des leçons de morale sur le fait qu'il faut bien éteindre votre écran et non pas "juste le mettre en veille" pour sauver la planète, alors qu'eux à côté de ça font un gâchis phénoménal de ressources juste pour continuer leurs activités de prédation…
  
  "Ce n'est pas à l'état de tout savoir sur ses citoyens, mais au citoyen de tout savoir sur l'état."
- [^] # Re: IA y a
  
  Posté par barmic 🦦 le 10 mai 2024 à 17:02. Évalué à 3.
  
  une équipe de modération ou d'administration d'un site à contenus produits par le lectorat voit toujours d'un mauvais œil la suppression de contenus
  
  Pour l'avoir vécu ça dépend de comment est-ce qu'on se considère en tant qu'équipe du site. Si on est "juste" là en support à des gens qui veulent publier des choses et que ce n'est pas un gagne pain, tant qu'on arrive pas à des limites de survi du site ça n'est pas forcément un problème. Les gens viennent postent ou retire, c'est leur choix.
  
  Si on considère que les contenus postés d'une manière ou d'une autre (c'est à dire pas forcément légalement) appartiennent au site oui ça pose problème, mais souvent dans ces cas là la suppression est impossible.
  
  https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
  - [^] # Re: IA y a
    
    Posté par Benoît Sibaud (site web personnel) le 13 mai 2024 à 14:30. Évalué à 3.
    Ok, une équipe ne voit pas « toujours » ainsi, soit (seulement les bonnes équipes quoi :)</troll>).
    
    On pourrait dire côté équipe du site :
    - tu veux juste fournir un service aux autres (version altruiste pure disons) ?
    - tu veux créer/gérer un site avec des contenus et accueillant pour de nouveaux contenus / de nouvelles personnes (version commun numérique) ?
    - tu veux accumuler du contenu et de la valeur (version loup déguisé) ?
    - …
    On pourrait dire côté contribution :
    - tu veux juste pouvoir lire ce qui t'intéresse ou écrire ce qui t'intéresse (version utilitarise pure disons) ?
    - tu veux créer/gérer un site avec des contenus et accueillant pour de nouveaux contenus / de nouvelles personnes (version commun numérique) ?
    - tu veux profiter d'un site gratos pour y faire ton autopromo (version narcissique) ?
    - …
    - [^] # Re: IA y a
      
      Posté par barmic 🦦 le 13 mai 2024 à 15:11. Évalué à 2.
      Pourquoi y mettre une question de morale ou valeur ? (avec une bonne dose de caricature)
      
      tu veux juste fournir un service aux autres
      
      ça peut être
      
      une vision altruiste
      
      une manière de se dédouaner de ce qui est sur ta plateforme
      
      https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
# Pas d'effacement

Posté par qui le 10 mai 2024 à 09:59. Évalué à 1.

Les publications ne sont pas effacées, juste masquées. Donc je suppose qu'elles restent accessibles à l'IA. Et si on les édite et qu'on remplace le texte par du texte aléatoire ? Ou généré par une IA ?
- [^] # Re: Pas d'effacement
  
  Posté par Misc (site web personnel) le 10 mai 2024 à 11:52. Évalué à 4.
  
  Surtout, c'est con, stackoverflow a des backups. Ça me rappelle un peu la révolte des gens autour de Reddit qui semble survivre sans probléme malgré le départ vers le fedivers. Ou Twitter/X, qui existe toujours malgré les annonces de sa mort, et malgré le départ des annonceurs, les campagnes, et l'émergence de plusieurs concurents (threads, bluesky, mastodon).
  
  Et ne parlons même pas des gens qui parlent d'utiliser le RGPD pour retirer le contenu de SO, ce qui est relativement hors sol.
  
  Le RGPD concerne les données personnelles, pas ce que tu as produit qui est couvert par le droit d'auteur. Au mieux, SO peut avoir à retirer/changer le pseudo, mais même ça, ça tombe sans doute sous l'exception 6.C, à savoir le respect du droit d'auteur via l'attribution (et le besoin pour SO de savoir qui a contribué du contenu).
- [^] # Re: Pas d'effacement
  
  Posté par zurvan le 10 mai 2024 à 16:42. Évalué à 6.
  
  Et si on les édite et qu'on remplace le texte par du texte aléatoire ?
  
  je l'ai fait, mon édition (de mon propre contenu), a été annulée par un "modérateur" et le contenu précédent remonté à la place de l'édition.
  
  Peut-être que si une grande quantité de monde fait ça, au bout d'un moment les modérateurs (qui sont bénévoles de ce que j'ai compris), vont passer l'éponge et se désengager de leur "employeur"
  
  "Ce n'est pas à l'état de tout savoir sur ses citoyens, mais au citoyen de tout savoir sur l'état."

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.