Journal L'IA est-elle compatible avec le Libre ?

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
15
20
jan.
2025

Sommaire

Hello,

Ceci est ma première tentative de journal, alors autant y aller franchement ;-P

La question me turlupine depuis un bon bout de temps et j'aimerais initier une discussion parce que je trouve que la communauté francophone reste encore très discrète sur ce sujet pourtant important. Je ne prétends évidemment pas répondre de façon définitive, mais juste indiquer où en est ma propre réflexion.

Ça a commencé fin novembre avec la keynote Libre, Open source: de VLC à l'IA, et futur de JB Kempf à Capitole du Libre où après une première partie amusante et agréable, JB s'est soudain mis à nous expliquer qu'il fallait que nous (les libristes) fassions de l'IA. Le problème avec JB c'est qu'on ne sait pas toujours lorsqu'il est sérieux ou pas, et qu'il s'en sort en nous laissant libres (!) d'interpréter ses propos : troll, il nous invite à dire qu'on fait de l'IA alors que ça n'en est pas vraiment, juste pour obtenir des subventions ; et il a dû bien s'amuser des réactions à l'annonce que VLC utiliserait désormais l'IA pour les sous-titres des vidéos. Mais beaucoup plus sérieusement, enfin moi j'ai vraiment pris ça sérieusement, il nous a aussi dit en gros la même chose que notre pénible résident : si on reste des herbivores, vous comprenez, les carnivores (ceux qui font de l'IA) gagneront.

Il y a eu ensuite les campagnes de dons de LQDN et de Framasoft autour de l'IA ; autant celle de La Quadrature était claire et nette, autant celle de Framasoft m'a assez perturbée : on informe sur l'IA mais on dit aussi qu'on va expérimenter l'IA "pour voir". Et aux personnes qui protestent on répond gentiment qu'on est bien au courant des problèmes et que c'est justement pour en discuter qu'on fait ça.

À noter que Framasoft comme VLC ont choisi de s'appuyer sur Whisper, d'OpenAI1. Pour rappel, OpenAI, actuellement, c'est à 49% Microsoft. Parmi les premiers promoteurs d'OpenAI, outre Sam Altman, il y a Elon Musk et Peter Thiel. Des techbros libertariens (si vous ne connaissez pas bien Peter Thiel ou plus généralement qui sont les techbros, je vous conseille Brotopia, c'est passionnant).

À une époque pas si lointaine, on nous expliquait que le Libre, c'est l'open source avec l'éthique (aka la Philosophie du Libre) en plus. J'ai l'impression que certains s'y retrouvent de moins en moins dans cette distinction.

Alors tentons de (re)poser rapidement quelques bases.

De quoi l'IA est-elle le nom

Dans la dénomination "Intelligence Artificielle", rien ne va.

Sauf peut-être si on prend l'adjectif "artificiel" dans le sens de "non authentique, de surface", et "intelligence" dans l'acception angloaméricaine utilisée dans l'acronyme CIA (Central Intelligence Agency) : quelque chose qui renseigne et contrôle.

Le souci, c'est que le pouvoir des mots est difficilement contournable. Et que même si on sait ce qu'il se cache derrière l'IA, le fait même d'utiliser le mot "intelligence" oriente notre pensée, nous amène à des associations biaisées. D'autant que le fantasme d'IA véritablement intelligente, consciente, à notre image, whatever, n'est jamais très loin. Même si on sait pertinemment que la mémoire d'un ordinateur n'a que peu de choses à voir avec la mémoire animale (la nôtre), ou que les réseaux neuronaux n'ont à peu près que le nom en commun avec l'entité constituée par nos propres réseaux de neurones (aka notre cerveau).

À la place, on pourrait parler de LLM, de perroquets stochastiques ou de SRAS (Systèmes Résultant d'Apprentissage Stochastique). Ce n'est pas le vocabulaire qui manque.

Et cela permettrait déjà de faire clairement la distinction entre les différentes formes de techniques qui se cachent derrière ce terme à la fois fourre-tout et fallacieux d'IA2.

Pour en revenir à la question

On l'aura compris, le fait même de parler d'IA dans un projet libre est pour moi déjà un problème.

Comme le dit Ali Alkhatib3 :

AI is an ideological project to shift authority and autonomy away from individuals, towards centralized structures of power. Projects that claim to "democratize" AI routinely conflate "democratization" with "commodification".

L'idéologie derrière l'acronyme IA, est exactement celle-là : nous ôter notre pouvoir de décision, nous déposséder de nos compétences décisionnelles, pour les confier à un SRAS (voire à un simple algorithme) via (très généralement) un SaaSS (Service as a Software Substitute)4

Cela me pose donc un gros problème que des structures en faveur du Libre cèdent à la facilité (au buzz ? à la provocation ?) de parler d'IA pour qualifier les outils qu'elles utilisent.

VLC n'utilise pas l'IA. Il utilise le logiciel open source Whisper, qui a été entraîné par des moyens, il me semble, inaccessibles à une personne lambda en termes de reproductibilité. Je ne connais pas les biais de Whisper. Reconnaît-il les voix féminines aussi bien que les masculines ? Les voix avec accent ? Quelles ont été les petites mains qui ont dû œuvrer (et qui œuvrent probablement encore) pour le corriger et l'amener aux niveaux de performance actuels ? Quels ressources énergétiques ont été nécessaires ?

Je comprends parfaitement l'utilité d'un tel logiciel pour permettre des traductions automatiques, je comprends tout particulièrement l'utilité en termes d'accessibilité, et je comprends qu'il n'existe pas vraiment d'alternative à la hauteur (à part peut-être le projet Scribe5, qui utilise Vosk6 : mieux ou pas mieux en termes d'éthique, je veux bien vos avis sur la question). Mais qu'on arrête de nous rouler dans la farine en parlant d'IA ou de Libre. Ce n'est pas libre, puisqu'on ne contrôle pas du tout la façon dont ce logiciel a été entraîné et qu'il est matériellement impossible (sauf à avoir les capacités de stockage et de calcul d'OpenAI) à reproduire soi-même.

En ce qui concerne Lokas de Framasoft (qui utilise aussi Whisper, donc) je suis encore plus perplexe car le rapport utilité/éthique de la proposition me paraît fortement questionnable. Même si je comprends que l'idée est de fournir un logiciel à peu près safe afin que les personnes qui auraient besoin d'un tel outil ne soient pas obligées d'y laisser toutes leurs données personnelles, je ne pense pas que développer un outil qui habitue à enregistrer l'intégralité de réunions via un smartphone soit une bonne idée.

En tout cas, ce n'est toujours ni libre, ni "de l'IA".

Parler d'IA, même au second degré, c'est dérouler le tapis rouge devant une idéologie qu'il faudrait au contraire dézinguer complètement.

Pour répondre à ce stade de ma réflexion à la question posée, l'IA ne peut pas être compatible avec le Libre, car ce n'est pas en soi une technologie, ni même un ensemble de techniques clairement définies. C'est une idéologie, en totale contradiction avec la philosophie du Libre.

À vous.


  1. Ce n'est pas dit dans la page wikipédia française, mais si on consulte l'anglaise, on peut y lire ceci : According to a NYT report, in 2021 OpenAI believed they exhausted sources of higher-quality data to train their large language models and decided to complement scraped web text with transcriptions of YouTube videos and podcasts, and developed Whisper to solve this task. 

  2. Pour un excellent historique et appréhender de façon à la fois pédagogique et détaillée les différentes formes d'IA, je conseille vivement la lecture de Melanie Mitchell - Artificial Intelligence: A Guide for Thinking Humans. J'ai également commencé ici une page regroupant des ouvrages et articles permettant d'outiller la réflexion au sujet de l'IA. 

  3. On écoutera également avec intérêt l'épisode du podcast Tech Won't Save Us qui lui est consacré 

  4. À ce sujet on relira avec profit cette page : Using SaaSS causes the same injustices as using a nonfree program: they are two paths to the same bad place. Take the example of a SaaSS translation service: The user sends text to the server, and the server translates it (from English to Spanish, say) and sends the translation back to the user. Now the job of translating is under the control of the server operator rather than the user. 

  5. https://scribe.cemea.org/ 

  6. https://alphacephei.com/vosk/ 

  • # différence moteur et finalité

    Posté par  (site web personnel) . Évalué à 5 (+3/-0). Dernière modification le 20 janvier 2025 à 20:02.

    Ce qui rend complexe le sujet des LLM1, c'est que oui c'est une branche de l'IA qui a le vent en poupe actuellement, malgré toutes ses casseroles^W hallucinations (dont beaucoup ne sont pas de son fait…).

    L'IA c'est aussi pour certains enlever les yeux rouges d'une photo efficacement (cela s'appuie sur du traitement d'image trivial), des systèmes experts qui ont le mérite d'avoir une traçabilité du raisonnement — et le défaut d'être un peu trop manuel — et bien sûr utiliser des réseaux de neurones correspond à une autre branche de l'IA, et il y a encore d'autres branches.

    Premier point.

    L'IA dont tu parles, recouvre le service rendu. La partie libre ne couvre généralement que le moteur — que ce soit celui d'exécution ou celui d'apprentissage — pas le corpus de données ayant permis de l'entraîner, ni la manière de l'entraîner…

    C'est un peu le même souci avec les jeux libres : s'il n'y a que le moteur de libre, tu as un moteur de jeu libre, pour les FPS tu trouves ioquake qui a permis de décliner Xonotic, Unvanquished, OpenArena qui ont libéré les cartes (donc des données + musiques + textures + modèles 3D des personnages) indispensables pour avoir un jeu libre (j'allais ajouter _entièrement) et dont on peut modifier toutes les sources en utilisant la meilleure origine possible (pour les modèles 3D, ce n'est pas le nuage de points résultant, c'est bien la modélisation d'origine).
    Pour l'IA tu retrouves donc cette séparation moteur / données : À quoi s'applique le libre ? Pour moi la réponse est claire : tu as une IA^W LLM efficace libre si l'ensemble (moteurs + données + méthodologie d'apprentissage) est reproductible et libre.

    Second point pour moi, ce serait le deuxième si j'avais envie d'élaborer :D

    Donc bon, il y a plein d'autres points à soulever, factuellement, selon l'architecture de chacune de ces IA (si c'était un robot, ça nous emmènerait du côté de l'Open Hardware et là… donc bon autant rester factuel et se cantonner à des sujets précis :p)


    1. surnommer les LLM de SRAS en français a une autre connotation, beau jeu de mot^W acronyme ;-) 

    • [^] # Re: différence moteur et finalité

      Posté par  (site web personnel) . Évalué à 4 (+3/-0).

      malgré toutes ses casserolesW hallucinations (dont beaucoup ne sont pas de son fait…).

      À propos du terme "hallucinations", Thibault Prévost interrogé par Mediapart expose :

      Dans une tentative de dépolitiser le problème, la Silicon Valley essaye de redéfinir les erreurs de l’IA comme des « hallucinations », en nous obligeant à une forme de tendresse par rapport aux machines, qu’il faudrait éduquer. Je suis absolument contre l’usage de ce terme : il s’agit d’erreurs de calcul, de désinformation, intrinsèques au modèle.

      (source: Trumpisme, biais racistes et menace écologique : « L’IA n’est pas une technique, c’est une idéologie », 19/01/2025, article payant).

      Actuellement, la bataille autour des mots semble gagnée par les bullshitters de tous poils, je rejoins l'auteur du post initial sur la nécessité de défendre des positions aussi sur ce plan là (même si nous sommes avons le sentiment d'être quasiment inaudibles aujourd'hui).

  • # Toujours à vouloir limiter le libre...

    Posté par  (site web personnel) . Évalué à 3 (+2/-1). Dernière modification le 20 janvier 2025 à 21:47.

    C'est une idéologie, en totale contradiction avec la philosophie du Libre.

    Qui a dit que c'était en contradiction?
    Et en réalité tu n'as pas démontré que c'est une idéologie ou du moins pas un idéologie différente du libre.

    Je vais prendre un exemple d'il y a quelques temps : les jeu vidéos.
    Il y a une une période où certains ont tenté de faire croire qu'ils faisaient des jeux libres.
    Puis on a décortiqué, un jeu c'est :
    - Un code
    - Des "objets" (audio, vidéo, images, …)
    Et la plupart des gens qui parlaient de jeux libre avaient libéré le truc le moins bankable (le code), alors que pour être libre il faut que 100% de l'oeuvre soit libre. OK, 99.999% pour inclure Firefox (à une époque l'outil de rapport de bug était non libre).

    l'IA, c'est quoi?
    - Un code
    - Des "objets" (le corpus d’entraînement)
    Si seulement le code est libre, l'IA n'est pas libre, si le code + le corpus sont libre ton IA est libre même si la finalité te déplaît (le libre n'interdit pas d'ôter un "pouvoir de décision", au contraire elle t'interdit de m'interdire d'utiliser ce que tu fais en libre pour ça), comme le libre est toujours libre même en SaaS (rappel : seul celui qui reçoit l'oeuvre a le source, donc si tu as que le résultat tu n'es pas forcément légitime à demander le source car tu n'es pas la cible du libre, seulement de l'AGPL).

    Le libre offre sans doute plus de liberté que tu ne le voudrais, mais c'est justement pour éviter ton arbitraire que le libre est là.

    Edit : j'aurais dû actualiser la page avant d'envoyer mon commentaire fait en 2 phases, BAud avait déjà sorti l'idée des jeux vidéos, zut, j'abonde donc.

    • [^] # Re: Toujours à vouloir limiter le libre...

      Posté par  (site web personnel) . Évalué à 2 (+0/-0). Dernière modification le 20 janvier 2025 à 22:10.

      Edit : j'aurais dû actualiser la page avant d'envoyer mon commentaire fait en 2 phases, BAud avait déjà sorti l'idée des jeux vidéos, zut, j'abonde donc.

      moui, j'ai préféré dégainer avant toi :D
      même si — ces derniers temps — tes commentaires deviennent moins agressifs ;-)

      j'ai sous le coude en plus https://faq.tuxfamily.org/JeuLibre/Fr pour rester sur l'exemple des jeux ainsi que :

      • la reconnaissance de la parole vu que Khrys< a un bon exemple avec vosk / alphacephei.com, beau projet (et avec des corpus vocaux libres / non-libres en exemple)
      • les messageries instantanées comme Telegram non libres vu qu'on ne peut pas s'instancier de serveur :/
      • un parallèle avec l'art libre (ça je le garde pour la fin :D)
    • [^] # Re: Toujours à vouloir limiter le libre...

      Posté par  (site web personnel) . Évalué à 1 (+1/-0).

      Le libre offre sans doute plus de liberté que tu ne le voudrais, mais c'est justement pour éviter ton arbitraire que le libre est là.

      Je crois que tu te méprends profondément sur ma conception du libre :-)

      (si tu lis ce que j'en dis à la fin de ma conf à Capitole du libre je crois que c'est assez clair)

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.