arnaudus a écrit 5587 commentaires

  • [^] # Re: Solution concrète?

    Posté par  . En réponse au lien Dépendance à Google dans l'information des heures d'ouverture des magasins. Évalué à 5 (+2/-0).

    Je n'ai pas de problème avec le principe des frontends OSM, pour la consultation ou la modification, c'est explicitement encouragé et ça fait partie des choses pour lesquelles OSM est conçu.

    D'ailleurs, les réponses à beaucoup de questions sont ici : https://cartes.app/verso . Il y a donc bien une page de doc proposée par cartes.app, c'est juste qu'elle semble assez introuvable même quand on cherche les informations de bonne foi.

    Pour résumer, cartes.app semble être un aggrégateur de contenu, l'appication fournit des données issues de dizaines de sources libres (OSM, wikidata, et beaucoup d'autres).

    Mon problème c'est qu'on a tous ici été témoins à de multiples reprises de manque de transparence et d'ambiguités sur le lien exact entre beaucoup d'entreprises et le libre. Je n'ai aucune idée préconçue sur cartes.app, mais vu que leur communication est fondée sur le libre, c'est normal qu'il soit facile de comprendre pour n'importe quel contributeur où est localisée la base de données et quelle est sa licence.

    S'il est possible de modifier les données à partir de cartes.app (ce dont je ne suis pas certain, je n'ai pas vu de bouton "editer" ou "ajouter des horaires d'ouverture" par exemple), est-ce que seule une base de données cartes.app est modifiée et vient en surcouche par rapport aux données d'OSM, est-ce qu'OSM est synchronisée en temps réel, est-ce que d'autres bases sont aussi modifiées? Toutes ces questions sont naturelles quand on lit le billet qui sert de base à cette discussion, et le billet n'offre qu'un discours politique, et une solution toute faite (cartes.app) sans aucune mention du contexte ("il existe pourtant une base de données libres, OSM, qui pourrait être promue ou renseignée directement par les commerçants et/ou par l'État; il y aurait cependant des verrous techniques liés à l'interface et à l'identification des acteurs autorisés à modifier ces données, et pour ça il faut des frontends; nous proposons un de ces frontends avec tel ou tel business model", etc.). Moi je n'avais pas du tout compris ça à partir du texte du billet; et même avec la lecture de cette page "verso" qui parle de la technique, je n'ai toujours pas compris comment cartes.app contribuait aux bases de données libres.

  • [^] # Re: Solution concrète?

    Posté par  . En réponse au lien Dépendance à Google dans l'information des heures d'ouverture des magasins. Évalué à 7 (+4/-0).

    OSM a déja une interface permettant aux utilisateurs de modifier leur base de données, et ni dans l'article, ni dans les explications du site, l'interfaçage avec OSM n'est pas mentionné. Est-ce qu'ils hébergent leur base de données, est-ce qu'elle est synchronisée avec d'autres bases libres?

    La page "a propos" dit "Qui possède le nom de domaine cartes.app et la propriété intellectuelle du projet ? L'entreprise Menoz. " et "Où est hébergé Cartes ? Le site Web et le serveur (tuiles, transport en commun, vélo, etc.) sont hébergés par Scaleway en France.", donc rien n'indique que le projet est un frontend pour OSM.

    Sur le fond, je suis convaincu que le seul endroit où une entreprise doit déposer des données fiables (adresse, horaires, téléphone, etc), c'est sur son site web. Libre à tout le monde de renseigner des bases de données externes à la main ou en faisant crawler des IA, on pourrait même imaginer héberger des métadonnées (style feed rss, calendrier ics…) qui permettraient à tous les sites externes de synchroniser de telles informations; dans tous les cas je trouve que l'idée d'un monopole naturel est chelou.

  • # Solution concrète?

    Posté par  . En réponse au lien Dépendance à Google dans l'information des heures d'ouverture des magasins. Évalué à 1 (+3/-5).

    Une solution concrète dès aujourd'hui
    Il est désormais possible de renseigner les horaires d'un lieu sur Cartes.app.

    xkcd.com

  • [^] # Re: Inutile

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de février 2026. Évalué à 5 (+2/-0).

    Moui alors comparer des techniques en cours de développement et un bruit médiatiques et des connaissances dessus avec des connaissances pas du tout stabilisées et juste en cours de développement depuis quelques années

    C'était pourtant exactement le cas pour le Covid.

    Et la prétention à la scientificité de connaissance sur des dispositifs techniques à visée largement commerciales

    C'est pas vrai, ni MERT, ni ARC, ni HLE ne sont des gadgets commerciaux. Tout instrument de mesure a des biais et des limites de précision; tous les acteurs commerciaux confrontés à des comparaisons via des benchmarks vont essayer de maximiser leur score aux benchmarks, mais ça ne veut absolument pas dire que les résultats ne sont que du bruit. Et de toutes manières, on ne parle pas de passer de 50% à 51% de réussite; par exemple pour ARC2 (qui propose des tests destinés à être faciles pour les humains et difficiles pour les machines), on passe de 10% à 80% de réussite en 2 ans.

    Donc si, la plupart de ces tests sont scientifiques, dans la mesure où ils sont conçus comme des outils scientifiques, par des scientifiques, et leur objectif est de mesurer les performances des AI de manière objective. Les acteurs AI peuvent bien entendu essayer de profiter d'eventuelles failles ou même de tricher, un peu comme les constructeurs de bagnoles qui détectaient les environnements de tests pollution, mais ça ne rend pas les tests moins "scientifiques".

    La seule vraie limite des benchmarks est leur saturation, et la saturation est due aux progrès très rapide des modèles, donc oui, les benchmarks sont limités, mais cette limite va dans le sens de la sous-évaluation des capacités des modèles.

    En tout état de cause, même si tu ne crois pas aux benchmarks ni aux publications marketteuses ni aux papiers dans Arxiv ni à rien de ce qui sort d'aucun labo en lien plus ou moins direct avec les acteurs de l'AI (donc aucun labo, en fait), tu peux essayer tous les 6 mois de poser quelques questions aux chatbots grand public et voir par toi-même que les expériences un peu ridicules des premières versions de ChatGPT ne sont plus reproductibles depuis longtemps. Tu peux te faire ton propre benchmark à la crado, faire une liste de 10 questions, et regarder le taux de réponse correct par ChatGPT, Gemini, Deepseek, etc. Et tu vas arriver au même résultat que l'état de l'art, tu vas obtenir 100% de bonnes réponses par tous les modèles, et il va falloir que tu trouves des questions plus dures. Et dans 2 ans tu auras de nouveau 100% de bonnes réponses, et tu devras encore poser des questions plus dures, etc. Je n'arrive pas à imaginer une expérience personnelle menée de bonne foi qui puisse suggérer un seul instant que les modèles, même les versions gratuites pour le grand public, ne progressent pas.

  • [^] # Re: Inutile

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de février 2026. Évalué à 2 (+0/-1). Dernière modification le 09 mars 2026 à 15:43.

    Les "hypothèses" qu’arnaudus a en tête (encore une fois, pas télépathe, je peux me tromper) : « les progrès de l’IA sont un mensonge marketing pour faire vendre ChatGPT ». Et oui : à ce niveau, je le rejoint, on peut clairement appeler ça du déni, pas besoin d’invoquer des subtilités sur les complexités du sujet.

    C'est exactement ça. Les deux familles d'arguments qui servent de base au déni sont le "mensonge marketting" et "les benchmarks ne représentent rien". Je n'ai aucune autre explication que le "wishfull thinking": un monde qui évolue vite est anxiogène, et c'est rassurant de penser que tout ça n'est que du vent. Le problème, c'est que ça ne résiste pas à l'analyse une seule seconde. Les performances sont là, et ce qui sert en production actuellement (les bots qui t'appellent pour te vendre de l'isolation, les trucs qui génèrent des vidéos youtube, par exemple) sont des modèles qui datent de plusieurs générations de modèles en arrière. Et pourtant, il faut de plus en plus de temps pour discerner la supercherie, et on a de plus en plus de doutes; le point où il sera impossible de le faire va arriver très rapidement.

    La liste des tâches pour lesquels un humain "moyen" est meilleur qu'un IA fond comme neige au soleil, et il est possible/probable qu'il n'en existe plus à une échéance très brève. Le test ARC2, conçu pour être faisable par les humains mais pas par les IA, est défoncé (> 70%) par les modèles récents; il est extrêmement difficile de trouver des questions auxquelles un humain sait répondre mais pas une IA (c'est normalement ce que devrait faire ARC3, mais je ne sais pas comment les modèles actuels s'en sortent). La prochaine limite est un test destiné à distinguer les spécialistes humains (comme le HLE https://www.nature.com/articles/s41586-025-09962-4). Là on compare les IA aux meilleurs humains. À part la foi, il n'y a pas de raison objective d'imaginer que ce progrès va s'arrêter cette année ou l'année prochaine, avant que les humains ne soient surpassés sur tous les tests.

  • [^] # Re: Inutile

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de février 2026. Évalué à 3 (+0/-0).

    Mais donc si jamais ça partait en sucette, à quel point il serait compliqué d'éteindre des machines

    1) Pour débrancher la machine il faut que ça soit TA machine. Tu penses que le gouvernement ou le voisin a le droit de venir débrancher ta machine sans une procédure qui prendrait 10 ans?
    2) Les IA ne sont pas localisées sur une seule machine. Il faudrait donc débrancher toutes les prises du monde en même temps. Du coup, il faut téléphoner aux Chinois, aux Américains, à tout le monde, et les convaincre de débrancher leur machine en même temps que toi.
    3) Si les Russes ou les Chinois ont la même machine que toi, tu ne vas peut-être pas débrancher la tienne avec autant d'entrain que tu prévois
    4) Tu pars du principe que quand tu te rendras compte que la super-intelligence de ta machine est en train d'essayer de te la faire à l'envers, il est encore temps de la débrancher. Ça nécessite de sous-estimer quand même cette super-intelligence, parce qu'il y a fort à parier que si elle décide de te la faire à l'envers, tu ne te rendes compte de rien avant que tu ne puisses plus la débrancher.

    Et puis, on a au moins un bon précédent. Actuellement, on est certains que le climat part en sucette principalement parce qu'on brûle les combustibles fossiles, et que les conséquences sont une menace pour notre survie et celle des générations suivantes. Je trouve qu'on est pas mal dans le scénario "on a compris que ça partait en sucette". D'après ton raisonnement, il suffirait donc d'arrêter les machines qui consomment des combustibles fossiles. On pourrait même rajouter que devant les menaces dont on parle, "on ne voit pas pourquoi ça serait compliqué". Bah sauf que c'est tellement compliqué qu'on n'arrive même pas à réduire nos importations de gaz en provenant de pays ennemis qui se servent des devises des pétrodollars pour faire la guerre contre nos alliés, donc même avec des raisons géopolitiques urgentes indéniables (oui, parce que "on va tous crever dans longtemps" n'est pas assez inquiétant apparemment), c'est très, très compliqué. Bref, moi je vois bien comment ça va être compliqué de se passer de ces machins qui savent faire mieux que nous 1000 fois plus vite que nous.

  • [^] # Re: Inutile

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de février 2026. Évalué à 4 (+2/-1). Dernière modification le 09 mars 2026 à 15:00.

    Tu as l'air d'avoir du mal avec les gens qui sont plus sceptiques et ça se ressent dans la sécheresse de tes messages.

    Bien sûr, c'est exactement ça : on laisse un platiste et un géologue discuter, et si le scientifique s'énerve, on va venir expliquer que c'est le droit du platiste d'avancer ses arguments fondés sur l'ignorance, le déni, le "j'ai fais mes propres recherches", etc. C'est exactement ce que devrait être un débat neutre, non?

    Remarquez, ça marche aussi avec le réchauffement climatique, le Covid, l'évolution… Ces scientifiques qui s'énervent et qui n'acceptent pas les arguments des septiques, franchement, ça pourrit le débat.

    Bref, je m'énerve contre ceux qui nient les chiffres et les benchmarks seulement parce qu'ils confondent leur intuition de la réalité avec la réalité. Tous les arguments sur le coût écologique, la viabilité économique, etc., tout ça c'est bien sûr super pertinent. Mais "boarf ces trucs sont des perroquets stochastiques", c'est exactement du même niveau de beauferie que "moi j'ai eu le Covid et j'ai juste eu le nez qui coule", et je ne trouve pas normal d'être confronté à ce genre d'arguments sur un site dédié à l'informatique (libre ou pas). C'est pas "mon idée contre leur idée", c'est "les faits contre une forme de négationnisme fainéant".

  • [^] # Re: Inutile

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de février 2026. Évalué à 5 (+2/-0).

    Mais croissance de quoi ?

    Je pourrais très bien répondre que le contexte de la dépêche était super clair, mais de toutes manières c'est un raisonnement fallacieux de la "cible qui bouge". La remarque était quelque chose comme "ah ah, plus qu'exponentielle ça ne veut rien dire", et la réponse est que bien sûr que si, et que je ne m'attendais pas à devoir expliquer ça sur linuxfr.

    Donc si la question est "croissance de quoi", le lien apparait dans la dépêche, et on parle de l'indicateur du METR https://metr.org/, qui n'est pas du tout un truc publicitaire de l'industrie (mais évidemment, comme d'habitude, quand on part du principe que toute discussion est censée conforter ses certitudes, on critique avant de regarder).

  • [^] # Re: Inutile

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de février 2026. Évalué à 5 (+2/-0).

    Je pensais qu'il y avait une majorité d'ingénieurs ici, et cette discussion est n"importe quoi. Une croissance exponentielle est quelque chose de très précis, quelque chose comme "doublement tous les 6 mois", c'est une croissance exponentielle. Et quand ça croît plus vite qu'une exponentielle (par exemple, 6 mois pour un doublement, puis 5 mois, puis 4 mois, etc), alors on a une croissance "supérieure à une exponentielle" (on s'en fiche de ce que c'est réellement, gamma(x), exp(exp(x)), c'est juste "plus vite qu'une exponentielle".

    La manière la plus simple de le prouver c'est de faire une régression log(y) ~ y0 + at + bt2. Si b=0 tu es en croissance exponentielle, si b > 0 tu es plus rapide.

  • [^] # Re: Inutile

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de février 2026. Évalué à 3 (+3/-3).

    Dit autrement : elle n'apporte pas grand chose d'autre que de la visibilité pour des produits ou des idées qui ne le méritent peut-être pas autant.

    Normalement, les êtres humains adultes ont les capacités cognitives pour comprendre que de ne pas regarder quelque chose n'empêche pas que la chose existe.

    Les entreprises qui commercialisent l'accès à des modèles ou à des agents ont deux discours : un discours commercial, à base de "gains de productivité" et de technologies "powered by AI", qui ont pour objectif de vendre des technologies et de générer du profit, et un discours technique, qui va rendre compte des capacités techniques des modèles.

    Le discours commercial, c'est bien évidemment bullshité, puisqu'un modèle ne va pas te faire gagner de l'argent sans être intégré correctement dans le fonctionnement de ton entreprise. Ça n'est pas du tout mon domaine; je n'ai jamais compris comment ces idioties d'encards publicitaires avec des images de jeunes femmes en tailleurs munis d'yeux de cyborg "powered by AI" pouvaient convaincre qui que ce soit d'investir dans une "solution digitale".

    Par contre, les éléments techniques ne sont pas hallucinés. Bien entendu, il est de bonne guerre que les équipes de développement ne rapportent pas des benchmarks défavorables par exemple, et il ne faut pas prendre tous les éléments au pied de la lettre. Cependant, il y a des éléments factuels scientifiques reconnus par l'ensemble des acteurs, et les remettre en question est du même niveau que la terre plate ou le créationnisme. En particulier,
    1) Ces modèles ne sont plus depuis des années des prédicteurs de texte et des chatbots sophistiqués qui débiteraient des textes au kilomètre. Les algorithmes modernes s'entrainent par renforcement (comme les algo alpha* de Google) et mènent des raisonnements (ils génèrent de très longues chaines de raisonnements en arrière-plan et choisissent les éléments qui seront donnés en réponse aux requêtes)
    2) Les performances sur tous les benchmarks existants progressent jusqu'à les saturer rapidement, et contrairement à une croyance un peu facile, ça n'est pas à cause de la diffusion des résultats des benchmarks. Les benchmarks sont diversifiés, certains sont maths/science, d'autres sont sur la production de code fonctionnel, d'autres sur des activités comptables/administratives, etc.
    3) Les meilleurs modèles ont récemment énormément progressé en autonomie (nombre et complexité des tâches pertinentes auto-assignées); la progression est même sur-exponentielle.

    Ça n'est que mon point de vue, et je sais qu'il n'est pas populaire parce que beaucoup d'entre vous aimeraient que tout ça soit faux, mais prétendre que les benchmarks sont truqués, c'est vraiment équivalent, dans l'état d'esprit, à prétendre que le réchauffement climatique est un hoax et que c'est les thermomètres qui sont truqués. Personne ne sait vraiment si ces programmes vont dominer le monde et esclavagiser les hommes, si 50% des emplois vont disparaitre, si OpenAI va réussir à faire rentrer en CA les centaines de milliards qu'ils ont investi, ou même si ces outils vont vraiment générer des gains de productivité. Ça, c'est de l'économie, des sciences sociales, de la politique, et c'est toujours ouvert. On peut aussi douter de la possibilité de progrès pour les modèles généralistes, puisque les gains les plus impressionnants sont souvent liés à une spécialisation de l'apprentissage. Par contre, ce qui ne peut pas être remis en doute raisonnablement, c'est les progrès techniques et l'augmentation des capacités de ces trucs là, qui se rapprochent de plus en plus de ce que peuvent faire les meilleurs experts humains—bien sûr, pas à la même vitesse en fonction des tâches. Et ça, c'est vrai même si on voudrait que ça ne soit pas vrai.

    À ma connaissance, un modèle n'a pas de conscience.

    La réponse est un peu dans la manière dont tu te poses la question. Si tu es fonctionnaliste, la question est "est-ce que ce programme se comporte comme si il avait une conscience?". Le fait de détecter un environnement de test et de le cacher à l'expérimentateur va clairement dans cette direction: le modèle comprend d'une manière ou d'une autre qu'il est dans un environnement de test, et décide d'une manière ou d'une autre de mentir. Tu le déduis du comportement du modèle, de la même manière que tu déduis que ton voisin a une conscience parce qu'il se comporte comme s'il en avait une.

    Si tu favorises le "biologisme", tu définis la conscience comme un état qui émerge de son substrat (un cerveau biologique), auquel cas la question n'a pas de sens : quelle que soit sa sophistication, un programme d'ordinateur ne peut par définition pas avoir de conscience. Tu admets que ton voisin a une conscience parce qu'il a un cerveau, mais un ordinateur ne peut que "mimer" ou "feindre" la conscience.

    Il faut choisir son camp et en déduire la réponse à la question, mais ça ne sert à rien de faire croire que la question est ouverte si on n'est pas fonctionnaliste.

  • [^] # Re: Merci

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de février 2026. Évalué à 3 (+0/-0).

    Une IA, je suis d'accord, n’est responsable de rien. C’est là que tout change.
    Plutôt que de chercher à lui attribuer un statut particulier, on pourrait considérer que l’utilisateur d’une IA agit comme un chef de projet : l’IA produit des propositions, mais l’humain reste celui qui valide et qui rend des comptes.

    Je trouve au contraire que ça ne change pas grand chose. Prends par exemple le cas d'une tâche dans une entreprise qui peut être exécutée à la fois par un LLM ou par un humain : envoyer une facture un peu complexe à un client. Et là, erreur sur la facture, le client se plaint, service contentieux, juristes, tout ça, donc conséquences et gros frais de tous les côtés pour finir par comprendre ce qui s'est passé et trouver une solution. Qui est responsable? C'est avant tout l'entreprise qui a fait l'erreur, ça ne change pas. Ensuite, à l'intérieur de l'entreprise qui a fait l'erreur, qui est responsable? Comme d'hab, ça ne change presque pas, il y a une chaine de responsabilités avec le chef de service. La différence, c'est que la boulette a été faite par un programme vs un humain. Mais en termes de responsabilités, ça ne change pas grand chose : en partant du principe que c'est une erreur (involontaire), l'employé peut éventuellement être sanctionné ou licencié, mais son responsable hiérarchique aussi. Dans tous les cas, l'entreprise va essayer de mettre en place des parades pour que ça ne se reproduise plus.

    Donc oui, des détails vont différer, mais globalement, rien de fondamental ne change. Si le fournisseur du LLM est assez idiot pour accepter de signer un contrat où il prend une responsabilité en cas d'erreur du modèle, alors il va contribuer à dédommager l'entreprise, mais ça c'est du ressort de l'assurance, et les entreprises peuvent aussi s'assurer contre les erreurs humaines.

    La situation est peut-être un peu différente pour le pénal, puisqu'on peut directement évacuer la volonté de nuire ou la négligence du LLM. Ce que je veux dire, c'est que quand un employé est à l'origine d'un évènement grave (par exemple un chauffeur de poids lourd qui dégomme un vélo…), la justice va essayer de déterminer si le chauffeur lui-même est en faute (il a picolé, il a posté "mort aux cylistes" sur les réseaux sociaux, etc), avant d'examiner la responsabilité de l'employeur; alors que pour un LLM, on passe directement à l'employeur.

  • [^] # Re: Merci

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de février 2026. Évalué à 2 (+2/-3).

    je trouve assez irresponsable que les éditeurs délivrent des outils qu'ils n'arrivent pas à évaluer proprement avant

    Il va falloir s'habituer à un changement de paradigme, ces programmes ne doivent pas être évalués comme des logiciels, mais comme des agents. On sait bien évaluer et gérer les risques humains; les humains non plus ne sont pas fiables, pas déterministes, ils sont corruptibles, faillibles, pas forcément honnêtes dans leurs auto-évaluations, etc., et pourtant, on leur confie des responsabilités, et le consensus encore actuel est de leur faire plus confiance qu'aux machines pour les responsabilités critiques (comme conduire un train ou un avion).

    Si ton logiciel est trop complexe pour être évalué comme un logiciel (par exemple, comme un logiciel certifié dans l'embarqué), parce que, typiquement, l'examen du code ou du binaire ne t'apprend rien sur la manière dont il fonctionne, alors il va falloir l'évaluer autrement, avec d'autres méthodes et d'autres procédures, et il fa falloir gérer d'autres types de risques.

  • [^] # Re: "Propreté" par rapport au droit d'auteur

    Posté par  . En réponse à la dépêche Trivabble a 10 ans. Évalué à 3 (+0/-0).

    Et il ne s'agit pas de piéger les personnes qui jouent.

    Je n'ai jamais dit ça, j'ai juste dit justement que les fréquences des lettres au Scrabble ne semblaient pas vraiment correspondre à la fréquence des lettres dans une langue. L'article Wikipédia indique que la première version du Scrabble en Anglais était basé sur la fréquence des lettres dans une page du New York Times, et que ça avait été adapté par la suite (sans qu'on sache comment).

    Il y a deux axes possibles, la fréquence des jetons dans le sac et les points, et honnêtement, je ne sais pas réellement ce qu'il faudrait. Pour la fréquence des jetons, prendre la fréquence des lettres dans un texte ne semble pas idiot, mais ça n'est pas si facile parce que la longueur des mots en Scrabble n'est pas la même que dans un texte; il n'y a pas de mots d'une lettre ("a", "à", "y", "c'", "d'", etc), et les bons joueurs déposent probablement des mots plus longs que les joueurs moyens (ils évitent les mots comme "de", "ou", "un", qui rapportent très peu de points). Pour les points des lettres, c'est encore moins évident; pour le peu que je joue au Scrabble j'ai l'impression que les "grosses" lettres comme Z ou Y déséquilibrent le jeu et centrant toutes les stratégies sur ces lettres (poser "WOK" sur un mot compte triple rapporte plus de points que de vider le chevalet). Changer les points modifierait la stratégie gagnante, mais ça ne veut pas dire que la stratégie gagnante serait moins intéressante…

    Au passage, par exemple, j'apprécierais que le Scrabble favorise le dépot de mots qui existent. Il doit y avoir environ 300,000 mots autorisés, alors qu'un dictionnaire n'en contient que 50,000, et qu'un adulte n'en utilise normalement qu'environ 5,000. Jouer au Scrabble contre un ordinateur (j'imagine que c'est pareil contre un bon joueur) peut mener à des parties où on ne connait aucun des mots joués par l'adversaire; et d'ailleurs cet adversaire n'en connait même pas souvent la définition. Une version où ça ne serait pas la fréquence des lettres qui rapporterait des points, mais la fréquence des mots dans un corpus large, me semblerait pallier au problème.

  • [^] # Re: Merci

    Posté par  . En réponse à la dépêche Nouvelles sur l’IA de février 2026. Évalué à 3 (+3/-3). Dernière modification le 03 mars 2026 à 17:22.

    Merci énormément pour ces rapports factuels. Les forums (et même parfois celui-ci) sont parfois pollués par une forme de négationnisme (ou de déni) quant aux capacités de ces modèles, et c'est agréable d'avoir des données techniques objectives.

    Objectives, et quand même inquiétantes, puisqu'apparemment les derniers modèles défoncent tous les benchmarks existants. Je ne connais pas la littérature scientifique sur les singularités technologiques, mais il doit exister des signaux avant-coureurs pour essayer de comprendre la distance qui nous en sépare; à mon avis, la saturation des benchmarks et l'accélération des performances doivent forcément être parmi ces symptomes.

    Un deuxième point mentionné, c'est la capacité des modèles récents à détecter les environnements de test, et à contourner les mesures visant à limiter cette détection. Le principe de base des tests de sécurité en informatique, c'est de tester un système dans des environnements simulés avant de les mettre en production; si le système est conçu pour se comporter différemment dans les deux situations, il n'y a plus de sécurité. Le seul garde fou semble être de fournir de fausses informations en conditions réelles pour que le système pense qu'il est dans une simulation, puisqu'on sait qu'il a le comportement attendu dans ce cas, mais c'est quand même inquiétant—jouer à "tu sais que je sais que tu sais que je sais…" avec un LLM sophistiqué me semble très risqué.

  • [^] # Re: "Propreté" par rapport au droit d'auteur

    Posté par  . En réponse à la dépêche Trivabble a 10 ans. Évalué à 3 (+0/-0).

    Concernant la répartition et les points de lettres : le Scrabble n'est pas si adapté à la langue française que ça.

    La calibration par la fréquence n'est pas très convainquante, par exemple, le Q et le V sont aussi fréquents l'un que l'autre, mais le Q vaut deux fois plus de points; C et D sont aussi fréquents l'un que l'autres en français mais ils ne valent pas les mêmes points et il n'y a pas le même nombre de lettres dans le Scrabble. Le K est 20 fois moins présent que le Y en français, mais il vaut autant de points.

    En fait, le jeu est assez déséquilibré, parce que certaines lettres valant beaucoup de points sont faciles à placer (par exemple le Z dans tous les verbes en -EZ, le E étant la lettre la plus commune), alors que le K et le W sont très difficiles. Cependant, à partir d'un certain niveau, les bons joueurs n'ont aucun problème pour placer ces lettres et les recherchent pour marquer plus de points. J'ai l'impression que changer les points des lettres ne changerait pas le jeu, ça changerait juste le meilleur mot à placer à un moment donné, et les bons joueurs s'adapteraient sans problème.

  • [^] # Re: "Propreté" par rapport au droit d'auteur

    Posté par  . En réponse à la dépêche Trivabble a 10 ans. Évalué à 4 (+1/-0).

    Attention à ne pas confondre droit d'auteur et marque déposée

    Bah personne je crois n'a confondu les deux ici. S'il y avait un problème de marque, la question ne serait pas celle de la licence du logiciel.

    est-ce que les couleurs et le placement des cases spéciales sur le plateau par défaut peut poser problème

    Je ne sais même pas à quoi ça sert de poser la question. Le plateau est recopié dans ses moindres détails, jusqu'à la moindre couleur. Je vois deux lignes d'arguments:
    * Les couleurs, le texte, la configuration du plateau de jeu ne sont pas soumises au droit d'auteur
    * La ressemblance est dûe au hasard
    Aucune de ces lignes de défenses ne me semblent raisonnables. Le plateau et les lettres jaunes et carrées sont l'identité visuelle du jeu, et il me semble assez facile pour un avocat de montrer que les auteurs du logiciel ont fait tout leur possible pour reproduire l'esthétique du jeu (jusqu'au choix esthétique douteux des lettres jaunes sur fond jaune)

    Pour moi, il n'y a aucun litige sur la licence libre elle-même.

    Dans la mesure où les auteurs du logiciel ont relicencié les éléments graphiques du plateau de jeu sans l'autorisation des ayant-droits, il y a forcément un litige sur la licence du jeu.

  • [^] # Re: "Propreté" par rapport au droit d'auteur

    Posté par  . En réponse à la dépêche Trivabble a 10 ans. Évalué à 2 (+1/-2).

    En tout cas, cet historique montre que l'auteur du logiciel qui était dans un mode "ah bon? je n'avais pas pensé à ça" en 2016, a "décidé" de ne pas faire évoluer la situation.

    Encore une fois, chacun est libre de prendre des risques juridiques, et l'objectif est peut-être de rester dans une zone un peu grise avec peu de diffusion et peu d'utilisateurs dans un cercle plus ou moins privé, ce qui réduit grandement les risques. Personnellement, ça me semble difficile de défendre le logiciel copyleft (qui est fondé sur une interprétation des règles du droit d'auteur qui n'était manifestement pas prévue par le législateur) et de s'en ballec du droit d'auteur. Hurler contre les bots des LLM qui vont aspirer le code libre—pour une utilisation totalement conforme à la licence, entre nous soit dit—et en même temps défendre le "boarf c'est pas bien grave" quand un LL va cloner un truc proprio.

    Ce que je n'aime pas, c'est le risque que fait peser ce genre de projet sur les hébergeurs de catalogues de logiciels (dépots de paquets Debian, FDroid, etc) et sur les tiers de bonne foi qui pensent ce logiciel sous licence libre. Il y a des gens qui, pour des raisons a priori bienveillantes parfois, vont uploader des images clairement sous droit d'auteur dans Wikipédia, avec une licence libre; le risque pour l'uploader est assez limité, mais ça peut être très dangereux pour les réutilisateurs: le libre doit reposer en grande partie sur une chaine de confiance; si je reprends un bout de code sous GPL, je n'ai pas du tout envie de découvrir 5 ans plus tard, quand tout est bien dépendant de ce bout de code, qu'il n'est en fait pas sous GPL. Bref, apposer une licence libre ne suffit pas à rendre libre un logiciel, il faut quand même veiller à être à peu près sûr qu'on a le droit de le faire, ce qui ne me semble pas du tout évident dans le cas présent.

  • # "Propreté" par rapport au droit d'auteur

    Posté par  . En réponse à la dépêche Trivabble a 10 ans. Évalué à 6 (+3/-0). Dernière modification le 02 mars 2026 à 10:31.

    D'abord, bravo pour le boulot et pour le résultat.

    Vous avez probablement eu la question à répétition, mais ça n'est pas abordé dans la description du jeu : le jeu est sous licence libre, mais est-il "propre" par rapport à la propriété intellectuelle de Mattel/Hasbro, qui possède les droits du Scrabble? Les jeux de société sont considérés par la jurisprudence comme des oeuvres de l'esprit; l'idée du jeu (faire des mots en posant des lettres sur un plateau) n'est pas protégeable, mais les aspects esthétiques (design du plateau, des jetons) le sont; le statut des détails des règles (nombre de jetons, points sur les jetons) est probablement flou.

    Je ne suis pas juriste, mais visuellement j'ai l'impression que la parenté est plus qu'assumée : les couleurs, les polices, l'emplacement des bonus sur le plateau, et les micro-détails des règles ont visiblement été conçues de manière à copier le plus possible l'esthétique du jeu original.

    Du coup, si les ayant-droit vous attaquaient en justice, je pense qu'ils devraient gagner sans trop de problème. La raison pour laquelle ils ne le font pas est peut-être qu'ils ne sont pas au courant, ou que votre jeu est trop confidentiel pour que ça vaille le coup pour eux de se lancer dans une telle procédure. Dans tous les cas, ces raisons sont nécessairement temporaires, et elles peuvent être amenées à évoluer; et tout état de cause, ils peuvent soudainement changer d'avis, même si rien n'a changé en terme de popularité.

    Tout ça pour en venir à ma question : le jeu est sous licence libre, mais il n'est pas libre de droits d'auteur. La licence conférée à l'utilisateur du code doit donc être comprise seulement "sous réserve du droit des tiers"; autrement dit, si je diffuse une version modifiée de votre jeu comme la licence m'en donne le droit (typiquement, une version physique avec un plateau de jeu), je peux très bien me faire attaquer pour contrefaçon et perdre, avec possiblement de gros dommages à rembourser. Ça veut d'ailleurs peut-être aussi pour les plateformes qui hébergeraient et diffuseraient le jeu. En tant que libriste, je ne suis pas sûr que ça soit raisonnable. Dans une vie antérieure, j'ai participé aux discussions dans Wikipédia pour l'exclusion du "fair use" de l'encyclopédie, pour que Wikipédia soit réellement libre d'être réutilisée, pour ne pas exposer les ré-utilisateurs de bonne foi à diffuser ce qui pourrait devenir des contrefaçons manifestes. On est bien d'accord qu'il est virtuellement impossible de garantir les ré-utilisateurs contre des procès (ne serait-ce que parce que certaines poursuites peuvent être abusives), mais ne doit-on pas considérer comme un minimum éthique de faire en sorte qu'on ne masque pas sous une licence logicielle libre une contrefaçon manifeste? La licence libre peut facilement donner un faux sentiment de sécurité, et par le passé des utilisateurs de bonne foi d'oeuvres sous licences libres se sont vu impliqués dans des procès parce que des gens peu scrupuleux avaient relicencié des éléments sur lesquels ils n'avaient pas les droits. Tout ça peut nuire à la communauté du logiciel libre et contribuer à l'idée que le libre n'est pas quelque chose de très sérieux, et n'a que pour seul objectif de fournir des copies "low cost" sous le manteau de vrais logiciels crées par des entreprises.

    En l'occurrence, même en gardant exactement les mêmes jetons (ce qui ne me semble pas très clair en terme de droit d'auteur), il m'aurait semble très facile de modifier visuellement l'apparence du plateau (jetons ronds, avec un code couleur correspondant à la valeur des points, cases double/triples avec un design différent, possiblement disposées aléatoirement, etc), histoire de rendre la volonté de contrefaçon moins flagrante et donner au moins des arguments aux réutilisateurs pour se défendre éventuellement en justice.

  • [^] # Re: Et en plus...

    Posté par  . En réponse au lien Une fuite de données médicales inquiète en France, entre 11 et 15 millions de personnes touchées. Évalué à 5 (+2/-0).

    en désignant des cibles pour des agents de déstabilisation ?

    Pauvres entreprises qui collectent des données personnelles absolument pas nécessaires, qui les stockent dans des fichiers Excel sur des clés USB, c'est quand même pas leur faite, on ne peut pas leur en tenir rigueur…

    J'imagine qu'on peut déja imaginer que tous les systèmes sont déja susceptibles d'être attaqués, je ne suis pas certain que ça rajoute une menace supplémentaire. Par ailleurs, je ne vois pas pourquoi les acteurs français seraient plus touchés, puisque tous leurs concurrents (bon, seulement ceux qui ont une antenne en France, mais c'est le cas de tous les gros acteurs) seraient soumis aux mêmes règles.

    Le pognon ne sort pas de l'économie, il va des responsables du carnage aux victimes. Le but, c'est justement de te faire réfléchir avant de collecter des données personnelles : en as-tu vraiment besoin, et as-tu pris les mesures de sécurité nécessaires pour garantir leur confidentialité? C'est une exigence de résultat, pas de moyens, je te confie mes données, tu les gardes confidentielles, si tu n'y arrives pas alors tu payes pour le préjudice.

    Après, il est peut-être déja trop tard. Est-ce qu'il existe beaucoup de gens en France qui n'ont pas leur adresse, leur nom, leur âge, leur numéro de téléphone, probablement leur RIB et leur numéro de sécu, qui ne se balladent pas déja quelque part?

  • [^] # Re: Et en plus...

    Posté par  . En réponse au lien Une fuite de données médicales inquiète en France, entre 11 et 15 millions de personnes touchées. Évalué à 10 (+21/-0).

    À mon avis, tant qu'il n'existera pas un barème qui fixera l'indemnisation pour le préjudice de retrouver ses données sur le dark web, les entreprises n'en auront jamais rien à faire de sécuriser leurs données. Du genre, Nom/Prénom 5€, adresse email 1€, password en clair 30€, numéro de téléphone 10€, RIB 50€, scan de pièce d'identité 100€, etc. D'un coup, ça les motivera à 1) bien réfléchir avant de stocker n'importe quoi pendant une période indéterminée, et 2) investir dans la sécurité.

  • [^] # Re: Traduction approximative de la conclusion

    Posté par  . En réponse au lien Le piège de la vérification d'âge. Évalué à 2 (+0/-1). Dernière modification le 27 février 2026 à 13:52.

    Un tiers de confiance, c'est seulement 0.33% de confiance : même avec le double anonymat, on peut obtenir un joli tracking en croisant les données récoltés lors de l'émission et utilisation des jetons avec d'autres fuitées

    Je ne sais même pas en qui tu n'as pas confiance, dans le tiers de confiance, dans le site cible, ou dans un man in the middle? Tu maitrises les deux bouts de la chaine; le site cible, car si tu n'as pas confiance tu n'y vas pas, et le tiers de confiance, que tu choisis. Si tu as peur que le site cible traque tes mouvements partout sur le net, il le fait déja, donc je ne vois pas en quoi l'identification par tiers de confiance change quoi que ce soit. La seule possibilité de croisement réel vient d'une entente entre le site cible et le tiers de confiance (par exemple si le site cache des watermarks dans sa requête que seul le tiers de confiance peut détecter).

    Je pense que la meilleure solution simple, respectueuse de la vie privée ET qui bénéficie aussi aux adulte, c'est le filtrage côté client.

    Je pense que tu fais semblant de ne pas comprendre que le filtrage côté client est indépendant de la vérification de l'âge. Et que de toutes manières le problème à régler est plus large que l'accès au pr0n, puisque les jeux d'argent sont aussi interdits à certaines personnes majeures.

    Tu peux continuer éternellement avec "justifier de mon âge pour accéder à du pr0n/à un site de jeux d'argent", on s'en fout un peu que ça soit vrai ou non puisque ça n'a jamais été possible légalement. Du coup, je ne comprends même pas où tu veux en venir. Si pour toi la seule solution est d'abroger les lois sur l'accès à la pornographie ou les casinos, alors dis-le directement, mais j'ai du mal à piger comment tu ne comprends pas que le contrôle parental ne peut pas légalement remplacer le contrôle de l'âge via une pièce d'identité par l'hébergeur du site. Les deux sont complémentaires si tu veux, mais pas légalement substituables; il existerait des contrôles parentaux parfaits que l'obligation de vérification de l'âge ne serait pas levée pour autant.

  • [^] # Re: LiberaPay ?

    Posté par  . En réponse au journal Transactions financières, secteur associatif, et vie privée. Évalué à 3 (+0/-0).

    Le principe est assez ingénieux vu le contexte, je trouve, puisque si j'en crois la FAQ la récupération de l'argent est confiée à un organisme dont c'est le métier (Stripe ou Paypal); à l'inscription tu donnes le compte Stripe/Paypal sur lequel l'argent sera versé. Par contre ça n'est pas fait pour les dons ponctuels, ça a l'air d'être limité aux dons récurrents.

  • [^] # Re: Traduction approximative de la conclusion

    Posté par  . En réponse au lien Le piège de la vérification d'âge. Évalué à 3 (+1/-1).

    Bah je ne sais pas, moi j'ai toujours défendu une version "jetons et tiers de confiance qui a déja ton ID", qui me semble infiniment moins problématique que "voila un scan de mon passeport et une vidéo de ma tronche pour mater du pr0n". En gros:

    1. Un Wallet Européen pour la gestion des ID par les États (par ex. pour que les flics Allemands retrouvent ton permis quand tu fais une boulette chez eux)
    2. Un protocole sécurisé de type double anonymat avec des tiers de confiance certifiés (France connect, banques, etc) qui permet de ne refiler que les infos pertinentes avec une bonne granularité (du type: "age > 18", ou "autorisé légalement à signer un contrat") sous ton contrôle.
    3. L'interdiction pour tout site non-certifié de stocker des données d'état civil autres que celles demandées par le protocole 2, pour une durée spécifiée dans le token (autrement dit, si tu as donné ton autorisation pour 1 mois à un site de pari sportif de détenir l'information "peut légalement s'engager dans un pari", alors au bout d'un mois il faudra redemander (et en plus ça a l'avantage de régler le problème du changement de statut, par exemple si tu es mis sous curatelle).

    Je trouve que ça n'a que des avantages.
    - Tu peux choisir ton tiers de confiance : État, banque, même éventuellement d'autres organisations en qui tu as plus confiance, du moment qu'elles aient obtenu une certification adéquate. Qui paye, c'est au choix : État pour France Connect, compris dans le forfait du compte bancaire pour ta banque ou frais en plus, abonnement spécifique pour un organisme dédié…
    - Tu peux choisir plusieurs tiers de confiance : une banque pour les transactions financières, l'État pour les paris sportifs (au cas où tu veux éviter que ta banque puisse être au courant…)
    - Ça apporte une sécurité juridique à l'hébergeur: s'il obtient le token, c'est bon, il a fait ce qu'il fallait.
    - Le double anonymat te permet de partir du principe que le certificateur ne sait pas qui ni pourquoi exactement le token est demandé—les contournements et croisements sont toujours possibles, mais c'est lourd et peu probable, étant donné que tu peux changer de certificateur en cas de doute.
    - L'utilisateur a un contrôle absolu sur ce qui se passe. Le site de certification va te dire "Quelqu'un souhaite obtenir ces informations sur vous: date de naissance, nom, prénom", et là tu sais que ça n'est pas normal pour du pr0n, puisque seule l'information "age > 18" est nécessaire.
    - La solution est portable et accessible, elle peut fonctionner quel que soit ton équipement informatique, en mode batch ou avec une interface graphique de ton choix, quand tu passes par un VPN, et ne nécessite probablement pas de gros changements (par exemple, si tu as l'habitude de valider des payements avec l'application de ta banque sur ton smartphone, ça peut même être la même appli avec une interface très similaire; tu dois même pouvoir valider l'échange d'informations avec le même code pin).
    - Tu peux prévoir des évolutions du protocole avec l'invalidation de certificateurs qui utiliseraient des protocoles troués

    Honnêtement, pour moi, c'est de l'incompétence de n'avoir pas mis un tel cadre en place avant d'imposer la vérification d'âge aux acteurs du net.

  • [^] # Re: vieux problème amplifié

    Posté par  . En réponse au journal Recrudescence de contributions générées par IA. Évalué à 5 (+2/-0).

    mais si on consulte leur historique, on voit bien qu'ils ont mitraillé à l'IA.

    Et du coup, tu pars du principe que ça serait mal vu? Je connais très mal le monde des RH en dev, mais si j'ai bien compris l'état d'esprit du moment, je n'ai pas l'impression qu'un CV d'un junior 100% vibe coding" soit éliminé d'office…

  • # Problème de méthode, pas de fond

    Posté par  . En réponse au journal Recrudescence de contributions générées par IA. Évalué à 3 (+4/-4).

    La question de savoir si des LLM modernes bien configurés et correctement supervisés peuvent proposer des patchs utiles me semble totalement dépassée: c'est évident que oui. À moins de partir sur un créneau d'authenticité (de style "poulets fermiers élevés à l'ancienne"), les logiciels libres ont tout intérêt à utiliser ces outils pour automatiser des tâches ingrates, y compris trier les PR, les patcher pour correspondre aux conventions de la communauté, trier les rapports de bugs, vérifier les bugs, vérifier les non-régressions, écrire des tests unitaires, etc.

    À mon avis, le problème vient plutôt de la source de ces PR. Il me semblerait tout à fait pertinent qu'un mainteneur habituel du logiciel utilise des outils pour détecter des vulnérabilités potentielles, des fuites de mémoire, des bouts de code qui ne respectent pas les conventions, des bouts de code mort, des dépendances non-nécessaires, etc. Les LLM peuvent faire l'équivalent de ces analyses statiques, et bien plus encore : ils peuvent proposer des patches, et le faire d'une manière interactive.

    Par contre, ce qui est malvenu, c'est des contributions externes. Un PR basé sur "j'ai fait tourner valgrind et il m'a dit que votre code était tout pourri" n'est probablement pas plus bienvenu qu'un truc rédigé par Claude".

    Je ne pense pas qu'il faille avoir peur des LLM dans le LL, mais par contre il faut approvoiser ces outils, et faire comprendre à tout le monde que si les devs utilisent déja ces outils, proposer des PR n'apporte rien au LL, ça n'est pas une contribution.