Je connais pas la littérature, ça va beaucoup trop vite pour moi, j'ai juste vaguement une idée des sujets. J'ai vraiment pas l'impression que le sujet de l'autoévaluation soit simple ou réglé (cf. mon post au dessous en dénichant un article rapide).
En tout cas, je sais pas ce qui est implémenté dans les systèmes en ligne mais en cherchant viteuf' on trouve des papiers sur l'autoévaluation : https://arxiv.org/abs/2312.09300
Ça semble dans cette technique
L'état de l'art l'an dernier (fin 2023) semble être :
Extending this work to large language models is challenging because their training distribution is too large to estimate and extracting embeddings from well-integrated LLM systems requires significant engineering effort.
Il semble dire que c'est assez simple dans les cas que tu as indiqué pour tes exemples (au hasard?), plutôt des QCM, quand la réponse tient en un seul token (ça ressemble à une tâche de classification supervisée, on a un ensemble de classe bien déterminé) et c'est beaucoup plus facile que d'évaluer un paragraphe, forcément.
Although sequence-level scores have weak predictive power, the previous results show that LLMs are well-calibrated on multiple choice question answer tasks and true/false evaluation tasks [Kadavath et al., 2022, OpenAI, 2023], suggesting the model has better calibration on token-level scores
J'ai aussi noté
In terms of estimating language models’ confidence or uncertainty, Tian et al. [2023], Lin et al. [2022] propose to ask model to express uncertainty in words along with the generated answer, but it is shown that LLMs often exhibit a high degree of overconfidence when verbalizing their confidence [Xiong et al., 2023].
Les LLMs auraient tendance à largement avoir largement trop confiance en eux si on leur demande directement.
J'ai l'impression? en lisant viteuf' que leur approche c'est de faire générer plusieurs réponse, de transformer ça en QCM en demandant "quelle est plus probablement la bonne réponse", et que finalement ça puisse améliorer les réponse. Mais que ce ne soit pas vraiment une panacée.
Du coup, la vraie question est plutôt celle-ci : ces modèles sont capables de réponses nuancées et de faire la différence entre la réalité et les hallucinations; pourquoi est-ce que leur invocation ne leur demande pas de le faire? C'est forcément un choix des fournisseurs du modèle, qui ont peut-être peur qu'on attribue des performances moins bonnes à un modèle qui répond "je ne sais pas".
Ah ouais, tu fais les vraies questions et les vraies réponses à partir de "c'est forcément" et "j'ai fais 3 expériences de coin de table en ignorant totalement la littérature".
J'ai une autre hypothèse : l'autoévaluation n'est pas fiable dans le cas général, et c'est pas tes expériences sur des cas archi-rebattus sur lequel le post apprentissage a pu être spécialisé (les théories du complot bien connues par exemple) qui vont le mettre en évidence.
Pardon j'avais pas lu attentivement /o\ c'est la même fonctionnalité oui.
Disons que ce que j'apporte c'est comment faire plus pratique, là ou tu te contentes de donner les mots clés. Peut être que tu supposes que l'auteur du journal n'ignorait pas la fonctionnalité ? Perso je ne l'ai découvert que sur le tard, j'ai pas lu de bouquin exhaustif de vimologie ou quoi.
Ah ouais "fais tes propres recherches" en somme. Le sujet est sérieux et mérite des articles de recherches, en fait. Le benchmarking est un sujet sérieux et compliqué (notamment parce que pour tester certaines capacités sur des questions originales faut s'assurer qu'Internet n'en a pas causé depuis le test sur le dernier modèle.
Les réponses "je sais pas" a tes questions a mon avis c'est pas du tout des propriétés émergentes, c'est juste des effets du post apprentissage en l'occurrence, les trucs ou on biaise le modèle a la fin pour qu'il soit neutre et ne réponde pas de manière tranchée, les fameuses questions d'alignement.
Je suis pas en train de dire qu'il n'y a pas de propriétés émergentes mais que démêler la pelote avec juste sa propre intuition n'est pas nécessairement la stratégie à adopter.
Il y a moyen de travailler dans des sélections avec vim. Shift+V l'opérateur de base. Ensuite une commande sera exécutée, de mémoire, dans la sélection.
Je sais pas comment ce truc marche, mais l'exemple n'est pas représentatif des cas difficiles. Tu sais que tu lui as pose un piège par exemple, alors que les cas intéressants tu poses une question ouverte, et c'est pas dit qu'il y ait pas potentiellement une différence flagrante entre une réponse juste et une hallucination sur une réponse longue, et avec plein de mots potentiellement contractuellement pertinents.
Non il y a aussi des articles de presse sans commentaires. Ça permet de voir ce qui fait réagir … Ou pas. En zieutant rapidement tu peux voir qui ça fait réagir. C'est souvent prédictible et stéréotypé, volontairement (ou pas) caricatural et parfois trollesque.
Elle est tout de même dépolluée donc. Les stations d'épuration ont aussi été modernisées. Certes peut être il y aurait eu des alternatives, après c'est aussi des choses à faire en plus peut-être. Et Paris était très en retard, ça a du empiler les contraintes, en plus d'être une ville avec des contraintes elle aussi.
La re-naturalisation du fleuve, par exemple, se fera pas du jour au lendemain et ça implique une volonté de tous les acteurs … pas simple.
Faut voir, avec un modèle unique il n'aurait pas nécessairement de raison d'en être particulièrement fier ou d'y tenir particulièrement ? Et le véhicule est plus compact, moins de risque de collision, de mauvaise visibilité, poids moins important, puissance également, et tout ça joue aussi dans la dangerosité.
Difficile de répondre de manière formelle, il y a quand même un certain faisceau d'indice qui dit que globalement il y a une conjugaison de facteur qui font que c'est pas très bon.
Une des études citées tend à montrer que oui, les gens « désagréables » avec des tendances conflictuelles et éventuellement violent (dans le contexte culturel de l'étude), achètent plutôt des grosses bagnoles de prestiges quand ils le peuvent (ce sont pas forcément les seuls). Mais évidemment ces trucs sont plus dangereux, plus gros tout ça.
https://onlinelibrary.wiley.com/doi/10.1002/ijop.12642 : « Not only assholes drive Mercedes. Besides disagreeable men, also conscientious people drive high-status cars » Extrait de l'abstract : « An important implication is that the association between driving a high-status car and unethical driving behaviour may not, as is commonly argued, be due to the corruptive effects of wealth. Rather, certain personality traits, such as low agreeableness, may be associated with both unethical driving behaviour and with driving a high-status car. »
Ça se conjugerait avec l'effet que les gens qui se sentent protégés dans ces gros tas de ferrailles, et le fait d'être dans un gros machins semble le faire d'après une des études, prennent plus de risques et sont plus dangereux. Enfin, ben la taille des machins fait qu'ils sont de plus en plus dangereux par eux même et cette tendance à l'embonpoint est inquiétante et inquiète les agences de santé routières : https://etsc.eu/euro-ncap-warns-on-increasing-car-size-and-weight/
Ce qui est étudié c'est le comportement routier, pas juste les accidents. On peut faire l'hypothèse que la probabilité d'un conducteur de Twingo de se mettre dans un état pareil aurait pas été le même, si l'article qui dit que les gens avec des tendances plus facilement violentes et conflictuelles préfèrent acheter des grosses bagnoles se confirme.
L'accidentologie des voitures puissante a déjà été remarquée par le passé. Une étude récente confirme que les voitures puissantes, que cette marque produite, ont plus tendance à être impliquées dans des accidents et que leurs conducteur(ice?)s prennent plus de risque d'une manière générale :
Note technique : bizarrement dans le code j'ai fait des liens markdown pour l'article de libé et l'article de TheConversation mais en prévisualisation seul le texte s'affiche ?? Du coup j'ai rajouté les url brutes après.
C'est vrai que la concurrence va recréer viteuf facilement un concurrent à Airbus pour remplacer Boeing ! Ça se fait tous les 4 matins, aucun soucis à se faire, le marché va rouler. Ils en sont ou les chinois ?
Ou le traitement de l'éthique dans les IAs : https://www.bbc.com/news/technology-56135817 ou le fondateur de Google qui dit qu'il vaut mieux laisser tomber le climat, c'est fichu, pour être le premier pour avoir une intelligence artificielle puissante sur le marché.
L’appât du gain passe devant bien des priorités en entraîne bien des tricheries, c'est pas les exemples qui manquent.
Difficile de garantir que des régimes politiques futurs garderont les mêmes contraintes qu'aujourd'hui. On fait confiance a une Marine Le Pen ou a un Donald Trump pour forcer Google où Microsoft a pas faire n'importe avec leurs centrales ?
C'est juste une formule. J'ai repris une des phrases du toot en guise de titre, tronqué par accident d'ailleurs vu que les toots n'en ont pas.
Du coup faut lire la phrase en contexte mais il faut lire quelque chose comme "petite incursion", ou "petit retour" je pense. Rien de très important sur le fond en tout cas.
Une vérification de certaines propriétés en phase de compilation n'est pas incompatible avec ça et permettra de concentrer les tests sur des comportements de plus haut niveau.
Par ailleurs si tu codes une librairie, par exemple, un cas d'utilisation de ce type de comportements, tu portes la responsabilité de tester ta bibliothèque sur l'utilisateur vu que tu ne connais pas nécessairement son environnement d'exécution.
[^] # Re: Question IA
Posté par thoasm . En réponse au journal Armée et IA, un projet "SkyNet" ?. Évalué à 2.
Je connais pas la littérature, ça va beaucoup trop vite pour moi, j'ai juste vaguement une idée des sujets. J'ai vraiment pas l'impression que le sujet de l'autoévaluation soit simple ou réglé (cf. mon post au dessous en dénichant un article rapide).
[^] # Re: Question IA
Posté par thoasm . En réponse au journal Armée et IA, un projet "SkyNet" ?. Évalué à 3.
En tout cas, je sais pas ce qui est implémenté dans les systèmes en ligne mais en cherchant viteuf' on trouve des papiers sur l'autoévaluation : https://arxiv.org/abs/2312.09300
Ça semble dans cette technique
L'état de l'art l'an dernier (fin 2023) semble être :
Il semble dire que c'est assez simple dans les cas que tu as indiqué pour tes exemples (au hasard?), plutôt des QCM, quand la réponse tient en un seul token (ça ressemble à une tâche de classification supervisée, on a un ensemble de classe bien déterminé) et c'est beaucoup plus facile que d'évaluer un paragraphe, forcément.
J'ai aussi noté
Les LLMs auraient tendance à largement avoir largement trop confiance en eux si on leur demande directement.
J'ai l'impression? en lisant viteuf' que leur approche c'est de faire générer plusieurs réponse, de transformer ça en QCM en demandant "quelle est plus probablement la bonne réponse", et que finalement ça puisse améliorer les réponse. Mais que ce ne soit pas vraiment une panacée.
[^] # Re: Question IA
Posté par thoasm . En réponse au journal Armée et IA, un projet "SkyNet" ?. Évalué à 1.
Ah ouais, tu fais les vraies questions et les vraies réponses à partir de "c'est forcément" et "j'ai fais 3 expériences de coin de table en ignorant totalement la littérature".
J'ai une autre hypothèse : l'autoévaluation n'est pas fiable dans le cas général, et c'est pas tes expériences sur des cas archi-rebattus sur lequel le post apprentissage a pu être spécialisé (les théories du complot bien connues par exemple) qui vont le mettre en évidence.
[^] # Re: Vim et selections
Posté par thoasm . En réponse au journal Helix, une excellent alternative à vim !. Évalué à 4.
Pardon j'avais pas lu attentivement /o\ c'est la même fonctionnalité oui.
Disons que ce que j'apporte c'est comment faire plus pratique, là ou tu te contentes de donner les mots clés. Peut être que tu supposes que l'auteur du journal n'ignorait pas la fonctionnalité ? Perso je ne l'ai découvert que sur le tard, j'ai pas lu de bouquin exhaustif de vimologie ou quoi.
[^] # Re: Question IA
Posté par thoasm . En réponse au journal Armée et IA, un projet "SkyNet" ?. Évalué à 3.
Ah ouais "fais tes propres recherches" en somme. Le sujet est sérieux et mérite des articles de recherches, en fait. Le benchmarking est un sujet sérieux et compliqué (notamment parce que pour tester certaines capacités sur des questions originales faut s'assurer qu'Internet n'en a pas causé depuis le test sur le dernier modèle.
Les réponses "je sais pas" a tes questions a mon avis c'est pas du tout des propriétés émergentes, c'est juste des effets du post apprentissage en l'occurrence, les trucs ou on biaise le modèle a la fin pour qu'il soit neutre et ne réponde pas de manière tranchée, les fameuses questions d'alignement.
Je suis pas en train de dire qu'il n'y a pas de propriétés émergentes mais que démêler la pelote avec juste sa propre intuition n'est pas nécessairement la stratégie à adopter.
# Vim et selections
Posté par thoasm . En réponse au journal Helix, une excellent alternative à vim !. Évalué à 7.
Il y a moyen de travailler dans des sélections avec vim. Shift+V l'opérateur de base. Ensuite une commande sera exécutée, de mémoire, dans la sélection.
https://stackoverflow.com/questions/7406949/vim-faster-way-to-select-blocks-of-text-in-visual-mode Ce post stack overflow donne des astuces pour étendre facilement la sélection par recherche de texte (tu cherches un truc, la sélection est agrandie jusqu'à une des occurrence suivante, au choix)
[^] # Re: Question IA
Posté par thoasm . En réponse au journal Armée et IA, un projet "SkyNet" ?. Évalué à 2.
Je sais pas comment ce truc marche, mais l'exemple n'est pas représentatif des cas difficiles. Tu sais que tu lui as pose un piège par exemple, alors que les cas intéressants tu poses une question ouverte, et c'est pas dit qu'il y ait pas potentiellement une différence flagrante entre une réponse juste et une hallucination sur une réponse longue, et avec plein de mots potentiellement contractuellement pertinents.
[^] # Re: Question IA
Posté par thoasm . En réponse au journal Armée et IA, un projet "SkyNet" ?. Évalué à 7.
As-tu halluciné cette réponse ?
# Et euh t'as envoyé tout ça sur quel genre de terminal ?
Posté par thoasm . En réponse au journal Demerdification de prévisions météo avec Puppeteer. Évalué à 8.
J'ai un type sur Apple II
[^] # Re: intérêt des commentaires
Posté par thoasm . En réponse au journal Commentaires IA. Évalué à 3.
Non il y a aussi des articles de presse sans commentaires. Ça permet de voir ce qui fait réagir … Ou pas. En zieutant rapidement tu peux voir qui ça fait réagir. C'est souvent prédictible et stéréotypé, volontairement (ou pas) caricatural et parfois trollesque.
[^] # Re: salaire des developpeurs
Posté par thoasm . En réponse au journal Se détacher des multinationales qui contrôlent les systèmes GNU/Linux ?. Évalué à 4.
Complément avec un article critique de Reporterre : https://reporterre.net/Rendre-la-Seine-baignable-un-projet-couteux-et-pas-tres-ecolo
[^] # Re: salaire des developpeurs
Posté par thoasm . En réponse au journal Se détacher des multinationales qui contrôlent les systèmes GNU/Linux ?. Évalué à 6.
L'eau récoltée est reversée dans les stations d'épuration en tout cas : https://www.linfodurable.fr/sante/jo-paris-2024-comment-la-seine-est-elle-depolluee-44246
Elle est tout de même dépolluée donc. Les stations d'épuration ont aussi été modernisées. Certes peut être il y aurait eu des alternatives, après c'est aussi des choses à faire en plus peut-être. Et Paris était très en retard, ça a du empiler les contraintes, en plus d'être une ville avec des contraintes elle aussi.
La re-naturalisation du fleuve, par exemple, se fera pas du jour au lendemain et ça implique une volonté de tous les acteurs … pas simple.
[^] # Re: Les vieux, c'était mieux avant...
Posté par thoasm . En réponse au journal L’informatique, ce truc de jeune (!?). Évalué à 5.
On essaye encore et toujours de réduire l'intérêt général à la somme des intérêts particuliers. C'est pas un bug c'est une fonctionnalité …
[^] # Re: Pourquoi Mercedes ?
Posté par thoasm . En réponse au journal Rassemblement pour Paul dans toutes les villes de France. Évalué à 7.
Faut voir, avec un modèle unique il n'aurait pas nécessairement de raison d'en être particulièrement fier ou d'y tenir particulièrement ? Et le véhicule est plus compact, moins de risque de collision, de mauvaise visibilité, poids moins important, puissance également, et tout ça joue aussi dans la dangerosité.
Difficile de répondre de manière formelle, il y a quand même un certain faisceau d'indice qui dit que globalement il y a une conjugaison de facteur qui font que c'est pas très bon.
[^] # Re: Pourquoi Mercedes ?
Posté par thoasm . En réponse au journal Rassemblement pour Paul dans toutes les villes de France. Évalué à 5. Dernière modification le 19 octobre 2024 à 20:57.
Une des études citées tend à montrer que oui, les gens « désagréables » avec des tendances conflictuelles et éventuellement violent (dans le contexte culturel de l'étude), achètent plutôt des grosses bagnoles de prestiges quand ils le peuvent (ce sont pas forcément les seuls). Mais évidemment ces trucs sont plus dangereux, plus gros tout ça.
https://onlinelibrary.wiley.com/doi/10.1002/ijop.12642 : « Not only assholes drive Mercedes. Besides disagreeable men, also conscientious people drive high-status cars » Extrait de l'abstract : « An important implication is that the association between driving a high-status car and unethical driving behaviour may not, as is commonly argued, be due to the corruptive effects of wealth. Rather, certain personality traits, such as low agreeableness, may be associated with both unethical driving behaviour and with driving a high-status car. »
Ça se conjugerait avec l'effet que les gens qui se sentent protégés dans ces gros tas de ferrailles, et le fait d'être dans un gros machins semble le faire d'après une des études, prennent plus de risques et sont plus dangereux. Enfin, ben la taille des machins fait qu'ils sont de plus en plus dangereux par eux même et cette tendance à l'embonpoint est inquiétante et inquiète les agences de santé routières : https://etsc.eu/euro-ncap-warns-on-increasing-car-size-and-weight/
[^] # Re: Pourquoi Mercedes ?
Posté par thoasm . En réponse au journal Rassemblement pour Paul dans toutes les villes de France. Évalué à 4.
Ce qui est étudié c'est le comportement routier, pas juste les accidents. On peut faire l'hypothèse que la probabilité d'un conducteur de Twingo de se mettre dans un état pareil aurait pas été le même, si l'article qui dit que les gens avec des tendances plus facilement violentes et conflictuelles préfèrent acheter des grosses bagnoles se confirme.
[^] # Re: Pourquoi Mercedes ?
Posté par thoasm . En réponse au journal Rassemblement pour Paul dans toutes les villes de France. Évalué à 9. Dernière modification le 19 octobre 2024 à 15:31.
L'accidentologie des voitures puissante a déjà été remarquée par le passé. Une étude récente confirme que les voitures puissantes, que cette marque produite, ont plus tendance à être impliquées dans des accidents et que leurs conducteur(ice?)s prennent plus de risque d'une manière générale :
Note technique : bizarrement dans le code j'ai fait des liens markdown pour l'article de libé et l'article de TheConversation mais en prévisualisation seul le texte s'affiche ?? Du coup j'ai rajouté les url brutes après.
[^] # Re: Mauvaise idée ?
Posté par thoasm . En réponse au journal #define CHAR_BIT 8. Évalué à 3.
Si on compte les bits en octets, il semble cohérent de nommer les qbits en qoctets.
# Yaura un flim ?
Posté par thoasm . En réponse au journal Cyclimse !. Évalué à 6.
.
[^] # Re: Le nucléaire pour…
Posté par thoasm . En réponse au journal Google aussi se tourne vers le nucléaire pour alimenter ses IA.. Évalué à 4.
C'est vrai que la concurrence va recréer viteuf facilement un concurrent à Airbus pour remplacer Boeing ! Ça se fait tous les 4 matins, aucun soucis à se faire, le marché va rouler. Ils en sont ou les chinois ?
[^] # Re: Le nucléaire pour…
Posté par thoasm . En réponse au journal Google aussi se tourne vers le nucléaire pour alimenter ses IA.. Évalué à 6.
Ou le traitement de l'éthique dans les IAs : https://www.bbc.com/news/technology-56135817 ou le fondateur de Google qui dit qu'il vaut mieux laisser tomber le climat, c'est fichu, pour être le premier pour avoir une intelligence artificielle puissante sur le marché.
L’appât du gain passe devant bien des priorités en entraîne bien des tricheries, c'est pas les exemples qui manquent.
[^] # Re: Le nucléaire pour…
Posté par thoasm . En réponse au journal Google aussi se tourne vers le nucléaire pour alimenter ses IA.. Évalué à 5.
Difficile de garantir que des régimes politiques futurs garderont les mêmes contraintes qu'aujourd'hui. On fait confiance a une Marine Le Pen ou a un Donald Trump pour forcer Google où Microsoft a pas faire n'importe avec leurs centrales ?
[^] # Re: Le titre
Posté par thoasm . En réponse au lien petit écart vers le succès de Starlink dans certains territoires isolés, et son impact sur les commu. Évalué à 3. Dernière modification le 16 octobre 2024 à 13:15.
Ça me donne surtout l'impression que t'as envie de chercher des poux dans la tête à l'auteurice :)
J'en profite pour dire que la meilleure interprétation est peut-être "digression" qui colle parfaitement dans le contexte.
[^] # Re: Le titre
Posté par thoasm . En réponse au lien petit écart vers le succès de Starlink dans certains territoires isolés, et son impact sur les commu. Évalué à 4.
C'est juste une formule. J'ai repris une des phrases du toot en guise de titre, tronqué par accident d'ailleurs vu que les toots n'en ont pas.
Du coup faut lire la phrase en contexte mais il faut lire quelque chose comme "petite incursion", ou "petit retour" je pense. Rien de très important sur le fond en tout cas.
[^] # Re: what
Posté par thoasm . En réponse au journal écrire du code dans le corps d'une classe python. Évalué à 4.
Une vérification de certaines propriétés en phase de compilation n'est pas incompatible avec ça et permettra de concentrer les tests sur des comportements de plus haut niveau.
Par ailleurs si tu codes une librairie, par exemple, un cas d'utilisation de ce type de comportements, tu portes la responsabilité de tester ta bibliothèque sur l'utilisateur vu que tu ne connais pas nécessairement son environnement d'exécution.