Un mois plutôt calme, pas de grosse publication de modèle ou de papier important : c’est le premier mois où aucun sujet ne me semble suffisamment saillant pour mériter d’être développé dans sa propre partie.
Si cela vous laisse sur votre faim et que l’anglais ne vous fait pas peur, je vous recommande chaudement le podcast dans la section "Pour aller plus loin", où deux ingénieurs d’Anthropic font une rétrospective sur le chemin parcouru ces dernières années, et le chemin restant à parcourir.
Sommaire
En vrac
DeepSeek publie une nouvelle version de son modèle de raisonnement open-weights r1, r1-0528. Les benchmarks publiés par DeepSeek le présentent au même niveau que l’état de l’art (ChatGPT o3/Gemini 2.5 Pro/Claude 4), mais la plupart des retours (benchmarks tiers et retours plus subjectifs) ne confirment pas ces résultats. Ceci dit, même en ne considérant que ces sources tierces, ce modèle reste très solide, prenant la première place dans sa catégorie des modèles open-weights et se comparant favorablement à Claude Sonnet 3.7 ou ChatGPT o1.
Si vous vous inquiétez des problématiques de vie privée, les messages qui passent par l’API directement ne sont généralement pas enregistrés. En tout cas, c’était le cas jusqu’ici. Une décision de justice force maintenant OpenAI à tout enregistrer.
Est-ce que l’entraînement de l’IA est possible sans enfreindre les droits d’auteurs de ceux ayant produit les données d’entraînement ? common-pile tente l’expérience, créant un ensemble de données d’entraînement uniquement sur des sources libres (domaine public, Creative Commons…), puis entraînant un (petit) modèle dessus. Ce modèle semble compétitif avec d’autres modèles de taille comparable comme Llama 2 7b.
Nouvelle évaluation ésotérique : après « jouer à Pokemon » (Claude, Gemini, ChatGPT o3), faire jouer différents modèles au jeu « Diplomatie ». o3 gagne au jeu des alliances et des trahisons ; Claude, incapable de mentir, se fait aisément manipuler.
OpenAI publie une analyse de l’usage fait de ChatGPT par des acteurs identifiés comme malveillants, ensuite bannis de leur plateforme. Principalement de l’influence politique sur les réseaux sociaux, mais également du développement de malware et de l’assistance à des cyberattaques, et des arnaques par SMS/messagerie sur internet.
OpenAI lance o3-pro, une version de o3 utilisant des chaînes de pensées drastiquement plus longues (donc plus coûteuses en temps et en puissance de calcul) pour (en théorie) de meilleurs résultats. Les retours (benchmarks et subjectifs) pointent dans la direction que les résultats sont effectivement légèrement meilleurs, mais ne valent ni l’attente (o3-pro est beaucoup plus lent, pouvant prendre ~15 minutes pour générer une réponse), ni le coût.
Plus intéressant, OpenAI baisse le coût de o3 de 80%, s’alignant globalement sur Gemini 2.5 Pro/Claude 4 Sonnet.
Gemini 2.5 Pro gagne une mise à jour, passant de la version 0506 à 0605. Le gain de performance semble réel (pour une mise à jour mineure), mais il semblerait que Gemini commence à avoir les mêmes problèmes de flagornerie que ChatGPT 4o.
Nouveau benchmark pour juger des performances en programmation, LiveCodeBench Pro. Les problèmes sont classés par difficulté (facile / moyen / difficile), et par catégorie — il est intéressant de noter que les performances ne sont pas homogènes entre toutes les catégories, les LLMs étant particulièrement bons dans les problèmes impliquant logique et/ou connaissance, mauvais dans les problèmes demandant de l’observation. Tous les modèles actuels sont à 0% pour les problèmes difficiles.
MidJourney dote son IA de la capacité de créer des video.
Un papier très intéressant sur l’automatisation des tâches. Les auteurs demandent à des experts de différents métiers à quel point ils aimeraient que l’IA automatise une tâche, et à des experts de l’IA de juger à quel point il serait facile d’automatiser cette tâche. Ceci permet de classifier les tâches en quatre groupes : "R&D opportunity zone" (difficile mais désirable), "Low priority zone" (difficile et non-désirable), "Green Light" (facile et désirable) et "Red Light" (facile mais indésirable). Il ne semble pas y avoir de corrélation entre les deux axes, et les startups proposant des solutions d’automatisation semblent être réparties de manière homogène entre ces quatre zones.
Dans les modèles open-weight, DeepMind publie Gemma 3n, un modèle fait pour l’exécution locale sur des smartphone et des laptop. Toujours dans cette catégorie d’exécution locale, Apple rend accessible aux développeurs l’exécution locale de ses modèles (sans pour autant publier les modèles eux-mêmes).
Un site internet résume les différentes controverses autour de OpenAI.
[Paywall] En avril dernier, une mise à jour de ChatGPT 4o l’avait rendu extrêmement flagorneur. Le New York Times couvre cet événement, rapportant au moins deux épisodes psychotiques encouragé par l’IA conduisant à des agressions, dont un conduisant au décès de l’agresseur suite à l’intervention des forces de l’ordre. Un papier avait prévenu du danger en 2024, en montrant que si une IA était entraînée uniquement sur des retours utilisateurs, l’IA apprenait des techniques de manipulations pour obtenir des retours positifs.
Dans la bataille juridique qui oppose les créateurs de contenu vs les entreprises qui entraînent les modèles (en grande partie sur ces contenus, sans demander l’autorisation), victoire du second camp : dans un pré-procès opposant Anthropic à trois auteurs, le juge donne (partiellement) raison à Anthropic en déclarant que le processus d’entraînement est transformative et relève du fair use — mais le procès aura tout de même lieu, du fait de l’utilisation d’une copie piratée plutôt qu’achetée légalement pour l’entraînement. Même décision dans un procès similaire intenté à Meta.
DeepMind applique les méthodes d’entraînement des LLM à la génomique, avec pour résultat DeepGenome.
Google lance son concurrent à Claude Code et Codex CLI, Gemini CLI, sous licence Apache 2.0.
Installation des centres de données liés à l'IA en France : à Chateauroux (commentaires sur LinuxFR) et à Petit-Landau (Alsace).
Pour aller plus loin
Non couvert ici :
- In Which I Make the Mistake of Fully Covering an Episode of the All-In Podcast : Résumé et analyse d’une longue interview que David Sacks (le conseiller du gouvernement Trump sur l’IA) a donné dans un podcast.
- Dwarkesh Patel on Continual Learning : Une discussion spéculative sur la rapidité des progrès futurs de l’IA.
- Give Me a Reason(ing Model) : Réactions sur un papier venant d’Apple. Une critique intéressante peut être trouvée sur AI Alignment Forum.
- The Dream of a Gentle Singularity : Résumé et critique de l’essai de Sam Altman (CEO de OpenAI), « The Gentle Singularity ».
- RTFB: The RAISE Act : analyse du projet de régulation de l’IA de l’État de New York.
- Analyzing A Critique Of The AI 2027 Timeline Forecasts : Nous avions mentionné en avril "AI 2027", une tentative de prédiction de la trajectoire de l’IA dans les prochaines années. Une critique substantielle sur les modèles utilisées a été publiée ; résumé et analyse de cette critique et des discussions autour.
- Tales of Agentic Misalignment : Dans certaines circonstances (plutôt artificielles), les modèles actuels peuvent prendre des décisions clairement indésirables, telles qu’avoir recours au chantage. Analyse du papier révélant le problème et des discussions autour.
En video :
Aller plus loin
- AI #119: Goodbye AISI? (10 clics)
- AI #120: While o3 Turned Pro (5 clics)
- AI #121 Part 1: New Connections (10 clics)
- AI #121 Part 2: The OpenAI Files (9 clics)
- AI #122: Paying The Market Price (6 clics)
- DeepSeek-r1-0528 Did Not Have a Moment (7 clics)
- o3 Turns Pro (4 clics)
- Gemini 2.5 Pro: From 0506 to 0605 (7 clics)
# Des liens en plus
Posté par Benoît Sibaud (site web personnel) . Évalué à 8 (+5/-0). Dernière modification le 04 juillet 2025 à 11:32.
(et rien ne dit que les requêtes d'IA soient faites uniquement par des bots qui s'annoncent et qui respectent les robots.txt et autres llms.txt)
IA générative et fakenews, comment vérifier l’information ?
https://nothing2hide.org/fr/2025/06/12/ia-generative-et-fakenews-comment-verifier-linformation/
Droits d’auteur : l’IA gagne une bataille… mais pas la guerre
https://actualitte.com/article/124576/legislation/droits-d-auteur-l-ia-gagne-une-bataille-mais-pas-la-guerre
# Déception
Posté par Meku (site web personnel) . Évalué à 4 (+2/-0).
Cet article n'a même pas été écrit par une IA. Ppffff…
--> []
# Toujours autant de merci...
Posté par Zatalyz (site web personnel) . Évalué à 6 (+4/-0).
Pour cette veille qui permet à la fois un peu de synthèse et de mieux comprendre des concepts compliqués (quoi que ce mois-ci, c'est plus tranquille !). Je me contente généralement de juste cliquer sur "pertinent" mais ça ne rends pas hommage au boulot. Donc : mille merci !
J'aurais bien creusé "l'analyse de l’usage par des acteurs identifiés comme malveillants", mais c'est en anglais ET en pdf. Mon niveau d'anglais étant laborieux, en général je m'en sors en copiant les morceaux trop touffus dans un traducteur automatique mais là, c'est pas facile. Un peu frustrant !
Le papier sur l'automatisation des tâches est vraiment super intéressant aussi (et là y'a la version html, j'ai pu traduire un peu). À la fois déjà un peu trop difficile à lire pour moi et en même temps trop court… Voir où l'IA est attendue, et où les humains n'en veulent pas…
[^] # Re: Toujours autant de merci...
Posté par Moonz . Évalué à 4 (+2/-0). Dernière modification le 05 juillet 2025 à 12:29.
Merci pour les encouragements :)
Pour lire et résumé un PDF, notebooklm marche pas trop mal, tu peux essayer d'uploader le PDF et le lui demander par exemple "Résume moi les cas décrit dans ce PDF, en français".
[^] # Re: Toujours autant de merci...
Posté par Stéphane Klein (site web personnel) . Évalué à 1 (+0/-0).
Je tiens aussi à remercier l'auteur pour sa série d'articles 👍️.
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.