je puise dans mes données d'entraînement ([…]) pour construire une phrase, un mot après l'autre
Je ne peux pas présumer de ta personne mais ce n'est pas la façon dont les humains apprennent et réfléchissent.
Un enfant n'a pas besoin de péta-octets d'exemple pour apprendre un concepts et sait fabriquer/déduire des nouveaux concepts à partir de concepts qu'il connait.
D'autre pas un humain a des concepts de vérité, de moralité, d'objectif. Tout ça qu'ignore complètement un llm.
Un llm est beaucoup plus éloigné d'un cerveau humain que d'une chaîne de Markov.
Ce que je n'ai pas dans ce genre d'articles, outre leur manque cruel d'intérêt, c'est:
les extraits sont donnés hors contexte : on ne sait pas quel est le prompt, le pré-prompt, les paramètres du modèle ; ni même finalement si c'est vraiment un contenu qui a été pondu par le LLM ou un fake
ils se construise autour du postulat qu'un LLM permet une recherche de vérité et que lorsqu'un contenu sensationnel sort, c'est soit une vérité qui dérange soit que le LLM délire et est donc dangereux ; position dépendant uniquement de l'opinion de l'auteur de l'article.
Et bien non, un LLM n'a aucune notion de vérité, seulement de vraisemblance. C'est une chaîne de Markov hyper sophistiquée et gloutonne en énergie.
Le code dit comment c'est fait.
La doc dit à quoi ça sert et comment l'utiliser
Une bonne doc c'est extrêmement plaisant à utiliser.
Des exemples qui me viennent : jq, sqlpage, jinja, python stdlib.
Une mauvaise doc c'est une doc qui se contente d'énumérer la liste des fonctions avec une description qui paraphrase le nom de la fonction.
J'ai trouvé un peu de ça dans les packages elixir ou python alors que j'adore programmer dans ces langages.
Cela dit (et je dis ça de tête) il me semble que le filtre anti-malware de google marche sur le même principe que haveibeenpwned :
- la donnée (url, email, password) est hachée côté client : hash(email)=d5654fcf96b353d44ead/690f6d11ae5a
- le client récupère auprès du serveur un block de données à partir d'un préfixe du hash : GET /pwned/d5654fcf96b353d44ead.
- le serveur renvoie tous les hashs ayant ce préfixe : d5654fcf96b353d44ead/051d01771f90 ... d5654fcf96b353d44ead/efa897518051 (bien sûr on peut s'épargner de rappeler le préfixe dans la réponse)
- le client vérifie si son hash est dans cette liste : si oui, c'est positif, sinon, c'est négatif.
Le serveur n'est pas vraiment moyen de savoir quelle était la donnée d'origine car les hashs n'ont aucun lien entre eux.
Le compromis se fait sur la longueur du préfixe : plus il est court plus il faut brasser de la donnée, plus il est long plus il y a de risque que la liste soit courte (cas pire : 1) et que le serveur devine quel hash a été demandé réellement et de remonte à la donnée d'origine.
Google is not not evil depuis longtemps mais ils ont quand même besoin que le web "fonctionne" correctement pour faire leur business. Donc tous leurs services n'ont pas forcément immédiatement un usage dans le profiling de l'utilisateur. Mais la méfiance est de mise.
Installer Windows est plus simple que Linux. Je sais ça fait mal à certains mais c'est la vérité.
Grosse barre de rire, je me suis arrêté là.
Déjà il faut un PC de moins de deux ans. Ensuite, ça t'installe une batterie de spyware : cortana, copilot, telemetry, recall et te force la main pour créer un compte M$. J'ai pas de compte Debian moi …
Et avec ça tu te cogne un explorateur de fichiers lent comme la mort qui te "cache les extensions connues" (!) pour mieux te prendre un virus ".jpg.exe", qui a un "more options" dans le menu contextuel parce qu'ils l'ont blindé de truc inutiles, qui a pour navigateur un Edge avec pour home page Bing+MSN. Au secours.
Tu veux faire de la bureautique ? Ah non, ça c'est un produit à part avec son lots de spyware, bloatware et accessoirement payant.
La semaine dernière j'ai installé en moins de 10 min AntiX - il demande type de clavier, timezone, user/pass - sur un laptop Lenovo en 32bit qui avait au moins 15 ans et tout marchait. J'ai pu utiliser Firefox et Libreoffice. Bonne chance avec ton installeur ouinouin.
jamais eu le besoin d'installer Windows puisqu'il l'est déjà de base.
C'est un peu ce que ça me fait quand c'est une boite privée : bien fait pour eux (modulo les déchets électroniques qui eux impactent tout le monde).
Mais quand c'est de l'argent public, ça me fait moins rire.
Si par "ce qu'ils veulent" tu entends "ce qu'ils ont vu dans une pub" ou "ce que leur as dit leur influenceur/influenceuse préféré(e)" alors oui.
Il faut une contre-communication. Donc dire que "windows c'est pourri" pour des raisons environnementale et de vie privée tout comme "fumer tue" pour des raisons de santé, c'est utile pour changer les habitudes.
La seule chose que je regrette un peu dans le Toml, ce sont les sous-sections: l'arboresence est très peu visible au premier coup d'oeil sur le document
C'est justement ce que je trouve rédhibitoire.
TOML:
[a]b=1[a.c]d=[1,2,3,]
YAML:
a:b:1c:d:[1,2,3]
JSON:
{"a":{"b":1,"c":{"d":[1,2,3]}}}
Y a pas photo IMHO : toml est peu clair, json plus verbeux que nécessaire, yaml ok.
Et encore, j'ai été gentil avec toml en ne mélangeant pas les sections.
j'avais fait bricolé un outil similaire avec jinja. Avantage, facile à câbler ; Inconvénient, ce n'est pas utilisable par un non technicien.
je cherchais l'indispensable boucle for, j'ai trouvé:
[for $tutu]
et les data
{"tutu":{"type":"array","value":[{...},{...}]}}
Outre le nom de variable peu inspiré, pourquoi ne pas avoir une syntaxe
[for person in persons et une data
{"persons":[{...},{...}]}
Je trouve le nécessité d'ajouter type : array redondante avec le type json déjà explicité par []. Et la nécessité implicite d'avoir un champ value source d'erreur, contraignante et ajoutant un niveau hiérarchique supplémentaire inutile dans les données.
Par contre, à chaque fois qu'on m'a présenté un outil avec l'accroche "vous verrez le métier se débrouillera tout seul", ça s'est transformé en "l'IT fait tout, et le métier se contente de valider"
Tellement vrai
Et tu te retrouves à devoir travailler avec des solutions "low code" qui soit-disant "empower le user", que le métier à choisi et qu'il t'impose.
J'avais loupé ce premier épisode et comme les commentaires et votes sont fermés, je me permet de souligné ce fil de commentaire "J'aime le yaml" qui exprime particulièrement bien mon avis et mon vécu.
Bien sûr rien est parfait, il y a des petits ratés mais quand on compare à d'autres formats, on est sur du moins pire.
J'ai construit une base de connaissance avec du yaml (structuré) contenant du markdown (pour la mise en forme des champs texte long) le tout dans du Git. Pour générer divers outputs, dont un site statique. Ça a très bien fonctionné y compris avec des contributeurs pas techos.
Les outils comme wallabag vont au delà : ça nettoie la page pour ne garder que le contenu ; ça permet d'ajouter des tag ; de marquer ce qui a été lu ; ça propose une belle liste, une fonction de recherche ; c'est multi-device (anglicisme dont pad ringard).
quelqu'un d'autre qui finira toujours par l'arrêter
À la lecture du billet de blog, il semblerait que non. Ils donnent une procédure pour exporter ses données mais ne disent pas quoi en faire.
Autant j'aimais pas la promotion faite par Mz de cet outil non libre, autant je trouve l'explication toute pourrie : "les gens ne consomment plus le web comme avant". Bof. Et puis c'est un peu dénigrer les alternatives à Pocket, que sont entre autre Linkwarden et Wallabag, qui continuent d’œuvrer et qui ne sont même pas mentionnées.
Je trouvais qu'on était à la limite de la concurrence déloyale quand Mz a racheté Pocket et intégré de base à FF. C'est le premier truc que je désactive quand je crée un nouveau profile.
[^] # Re: bof
Posté par steph1978 . En réponse au journal [HS] La comédie Grok versus Musk/MAGA. Évalué à 2.
Je ne peux pas présumer de ta personne mais ce n'est pas la façon dont les humains apprennent et réfléchissent.
Un enfant n'a pas besoin de péta-octets d'exemple pour apprendre un concepts et sait fabriquer/déduire des nouveaux concepts à partir de concepts qu'il connait.
D'autre pas un humain a des concepts de vérité, de moralité, d'objectif. Tout ça qu'ignore complètement un llm.
Un llm est beaucoup plus éloigné d'un cerveau humain que d'une chaîne de Markov.
[^] # Re: bof
Posté par steph1978 . En réponse au journal [HS] La comédie Grok versus Musk/MAGA. Évalué à 4.
ça ne dit absolument rien de la pertinence du propos.
Si tu peux élaborer, parce que Ça fait au moins 2 ans que j'entends et lis cette phrase, à répétition
# bof
Posté par steph1978 . En réponse au journal [HS] La comédie Grok versus Musk/MAGA. Évalué à 10.
Ce que je n'ai pas dans ce genre d'articles, outre leur manque cruel d'intérêt, c'est:
les extraits sont donnés hors contexte : on ne sait pas quel est le prompt, le pré-prompt, les paramètres du modèle ; ni même finalement si c'est vraiment un contenu qui a été pondu par le LLM ou un fake
ils se construise autour du postulat qu'un LLM permet une recherche de vérité et que lorsqu'un contenu sensationnel sort, c'est soit une vérité qui dérange soit que le LLM délire et est donc dangereux ; position dépendant uniquement de l'opinion de l'auteur de l'article.
Et bien non, un LLM n'a aucune notion de vérité, seulement de vraisemblance. C'est une chaîne de Markov hyper sophistiquée et gloutonne en énergie.
[^] # Re: non, c'est l'inverse
Posté par steph1978 . En réponse au lien Is Documentation Like Pineapple on Pizza?. Évalué à 8. Dernière modification le 18 juin 2025 à 20:52.
Le code dit comment c'est fait.
La doc dit à quoi ça sert et comment l'utiliser
Une bonne doc c'est extrêmement plaisant à utiliser.
Des exemples qui me viennent : jq, sqlpage, jinja, python stdlib.
Une mauvaise doc c'est une doc qui se contente d'énumérer la liste des fonctions avec une description qui paraphrase le nom de la fonction.
J'ai trouvé un peu de ça dans les packages elixir ou python alors que j'adore programmer dans ces langages.
# non, c'est l'inverse
Posté par steph1978 . En réponse au lien Is Documentation Like Pineapple on Pizza?. Évalué à 6.
La documentation c'est pénible à faire et agréable à consommer.
L'ananas sur la pizza, c'est facile à faire et désagréable à consommer.
# pas con
Posté par steph1978 . En réponse au lien Delta Chat a plus d'utilisateurs et veut devenir encore plus décentralisé. Évalué à 6. Dernière modification le 17 juin 2025 à 20:43.
[^] # Re: bloomen ?
Posté par steph1978 . En réponse au lien Actualités générées par IA : l'extension Firefox développée par Next signale plus de 4 000 sites. Évalué à 5.
Oui, ma crainte était bien là en effet.
Cela dit (et je dis ça de tête) il me semble que le filtre anti-malware de google marche sur le même principe que haveibeenpwned :
- la donnée (url, email, password) est hachée côté client :
hash(email)=d5654fcf96b353d44ead/690f6d11ae5a- le client récupère auprès du serveur un block de données à partir d'un préfixe du hash :
GET /pwned/d5654fcf96b353d44ead.- le serveur renvoie tous les hashs ayant ce préfixe :
d5654fcf96b353d44ead/051d01771f90 ... d5654fcf96b353d44ead/efa897518051(bien sûr on peut s'épargner de rappeler le préfixe dans la réponse)- le client vérifie si son hash est dans cette liste : si oui, c'est positif, sinon, c'est négatif.
Le serveur n'est pas vraiment moyen de savoir quelle était la donnée d'origine car les hashs n'ont aucun lien entre eux.
Le compromis se fait sur la longueur du préfixe : plus il est court plus il faut brasser de la donnée, plus il est long plus il y a de risque que la liste soit courte (cas pire : 1) et que le serveur devine quel hash a été demandé réellement et de remonte à la donnée d'origine.
Google is not not evil depuis longtemps mais ils ont quand même besoin que le web "fonctionne" correctement pour faire leur business. Donc tous leurs services n'ont pas forcément immédiatement un usage dans le profiling de l'utilisateur. Mais la méfiance est de mise.
# bloomen ?
Posté par steph1978 . En réponse au lien Actualités générées par IA : l'extension Firefox développée par Next signale plus de 4 000 sites. Évalué à 4. Dernière modification le 10 juin 2025 à 23:50.
Et donc l'extension envoie toutes les URL visitées vers les serveurs de next ou le bloom filter est récupéré par l'extension et utilisé localement ?
# triste
Posté par steph1978 . En réponse au lien Fakir et l'IA : y'a rien qui va. Évalué à -1.
.
[^] # Re: Encore un exemple d'échec de communication.
Posté par steph1978 . En réponse à la dépêche (Début de) la fin de Windows (10). Évalué à 7.
Grosse barre de rire, je me suis arrêté là.
Déjà il faut un PC de moins de deux ans. Ensuite, ça t'installe une batterie de spyware : cortana, copilot, telemetry, recall et te force la main pour créer un compte M$. J'ai pas de compte Debian moi …
Et avec ça tu te cogne un explorateur de fichiers lent comme la mort qui te "cache les extensions connues" (!) pour mieux te prendre un virus ".jpg.exe", qui a un "more options" dans le menu contextuel parce qu'ils l'ont blindé de truc inutiles, qui a pour navigateur un Edge avec pour home page Bing+MSN. Au secours.
Tu veux faire de la bureautique ? Ah non, ça c'est un produit à part avec son lots de spyware, bloatware et accessoirement payant.
La semaine dernière j'ai installé en moins de 10 min AntiX - il demande type de clavier, timezone, user/pass - sur un laptop Lenovo en 32bit qui avait au moins 15 ans et tout marchait. J'ai pu utiliser Firefox et Libreoffice. Bonne chance avec ton installeur ouinouin.
Le cœur du problème.
[^] # Re: L'article est pour les abonnés ou les acheteurs en kiosque du Canard
Posté par steph1978 . En réponse au lien "Microsoft fait les poches des flics". Évalué à 10.
C'est un peu ce que ça me fait quand c'est une boite privée : bien fait pour eux (modulo les déchets électroniques qui eux impactent tout le monde).
Mais quand c'est de l'argent public, ça me fait moins rire.
[^] # Re: De bonnes raisons
Posté par steph1978 . En réponse à la dépêche (Début de) la fin de Windows (10). Évalué à 10.
Si par "ce qu'ils veulent" tu entends "ce qu'ils ont vu dans une pub" ou "ce que leur as dit leur influenceur/influenceuse préféré(e)" alors oui.
Il faut une contre-communication. Donc dire que "windows c'est pourri" pour des raisons environnementale et de vie privée tout comme "fumer tue" pour des raisons de santé, c'est utile pour changer les habitudes.
# donc
Posté par steph1978 . En réponse au lien MinIO supprime des fonctions de son interface Web et les pousse vers une version payante . Évalué à 5. Dernière modification le 31 mai 2025 à 00:05.
Deprecated Features in MinIO v2.0.0:
Alternative Solutions:
Je crois que c'est le signe pour moi de passer à Garage, développé par des gens biens.
[^] # Re: TIOBE...
Posté par steph1978 . En réponse à la dépêche Sortie de Lazarus 4.0, l'IDE pour Free Pascal. Évalué à 3.
cuatext, un éditeur de texte rapide, avec une foultitude de fonctionnalités intéressantes et de nombreux plugins.
[^] # Re: Précédemment sur linuxfr
Posté par steph1978 . En réponse au lien YAML et alternatives. Évalué à 4.
J'avoue ne pas comprendre cette phobie de l'indentation, mais "venez comme vous êtes" comme ils disent.
[^] # Re: Précédemment sur linuxfr
Posté par steph1978 . En réponse au lien YAML et alternatives. Évalué à 2.
Oui, j'ai été gentil avec JSON aussi 😁
# lecture savoureuse
Posté par steph1978 . En réponse au lien The Copilot Delusion. Évalué à 10.
J'ai beaucoup aimé :
Il décrit bien pourquoi ce n'est pas un "copilote" mais aussi en quoi cela peut être utile à un développeur expérimenté.
[^] # Re: Précédemment sur linuxfr
Posté par steph1978 . En réponse au lien YAML et alternatives. Évalué à 5.
C'est justement ce que je trouve rédhibitoire.
TOML:
YAML:
JSON:
Y a pas photo IMHO : toml est peu clair, json plus verbeux que nécessaire, yaml ok.
Et encore, j'ai été gentil avec toml en ne mélangeant pas les sections.
[^] # Re: Sans libreoffice
Posté par steph1978 . En réponse à la dépêche Sortie de LOTemplate V2 . Évalué à 1.
À un moment, il faut bien créer la template, non ?
# for
Posté par steph1978 . En réponse à la dépêche Sortie de LOTemplate V2 . Évalué à 4.
super idée.
j'avais
faitbricolé un outil similaire avec jinja. Avantage, facile à câbler ; Inconvénient, ce n'est pas utilisable par un non technicien.je cherchais l'indispensable boucle for, j'ai trouvé:
[for $tutu]et les data
Outre le nom de variable peu inspiré, pourquoi ne pas avoir une syntaxe
[for person in personset une dataJe trouve le nécessité d'ajouter
type : arrayredondante avec le type json déjà explicité par[]. Et la nécessité implicite d'avoir un champvaluesource d'erreur, contraignante et ajoutant un niveau hiérarchique supplémentaire inutile dans les données.[^] # Re: Memory
Posté par steph1978 . En réponse à la dépêche Sortie de LOTemplate V2 . Évalué à 4.
Tellement vrai
Et tu te retrouves à devoir travailler avec des solutions "low code" qui soit-disant "empower le user", que le métier à choisi et qu'il t'impose.
[^] # Re: Précédemment sur linuxfr
Posté par steph1978 . En réponse au lien YAML et alternatives. Évalué à 7.
J'avais loupé ce premier épisode et comme les commentaires et votes sont fermés, je me permet de souligné ce fil de commentaire "J'aime le yaml" qui exprime particulièrement bien mon avis et mon vécu.
Bien sûr rien est parfait, il y a des petits ratés mais quand on compare à d'autres formats, on est sur du moins pire.
J'ai construit une base de connaissance avec du yaml (structuré) contenant du markdown (pour la mise en forme des champs texte long) le tout dans du Git. Pour générer divers outputs, dont un site statique. Ça a très bien fonctionné y compris avec des contributeurs pas techos.
[^] # Re: L'approche local-first
Posté par steph1978 . En réponse au lien Pocket fait ses adieux [Firefox]. Évalué à 3.
Moui
Les outils comme wallabag vont au delà : ça nettoie la page pour ne garder que le contenu ; ça permet d'ajouter des tag ; de marquer ce qui a été lu ; ça propose une belle liste, une fonction de recherche ; c'est multi-device (anglicisme dont pad ringard).
ça s'auto-héberge ! … y compris en local 😈
[^] # Re: La vraie question !
Posté par steph1978 . En réponse au lien Pocket fait ses adieux [Firefox]. Évalué à 6.
À la lecture du billet de blog, il semblerait que non. Ils donnent une procédure pour exporter ses données mais ne disent pas quoi en faire.
Autant j'aimais pas la promotion faite par Mz de cet outil non libre, autant je trouve l'explication toute pourrie : "les gens ne consomment plus le web comme avant". Bof. Et puis c'est un peu dénigrer les alternatives à Pocket, que sont entre autre Linkwarden et Wallabag, qui continuent d’œuvrer et qui ne sont même pas mentionnées.
# longue vie à Wallabag
Posté par steph1978 . En réponse au lien Pocket fait ses adieux [Firefox]. Évalué à 10.
Je trouvais qu'on était à la limite de la concurrence déloyale quand Mz a racheté Pocket et intégré de base à FF. C'est le premier truc que je désactive quand je crée un nouveau profile.
Pour ma part j'ai toujours utilisé wallabag.