Faire tourner un grand modèle de langage chez soi, c'est souvent frustrant : la mémoire GPU s'épuise rapidement, les conversations longues ralentissent ou plantent, et les modèles vraiment capables restent réservés au cloud.
TurboQuant, publié par Google Research le 24 mars 2026, change la donne.
L'algorithme compresse la mémoire de travail des LLM par 6 fois sans perte de précision, et accélère les calculs jusqu'à 8 fois sur GPU haut de gamme. Concrètement, pour un utilisateur local : sur une carte graphique grand public à 12 Go, on passe de 8 000 à 40 000 tokens de contexte utilisable. C'est la différence entre un assistant qui oublie le début de la conversation et un qui tient sur un fichier de code entier - ou un long document - sans broncher.
Des utilisateurs rapportent pouvoir tenir des conversations de 100 000 tokens sur du matériel grand public comme un Mac Mini, sans la dégradation de qualité habituelle. Les modèles qui nécessitaient hier un abonnement cloud commencent à tourner correctement en local.
Google n'a publié aucun code, mais des développeurs indépendants ont implémenté l'algorithme à partir des seules équations du papier. En moins d'une semaine, une intégration dans llama.cpp était disponible. Le débit en tokens se maintient 2 à 3 fois plus élevé dans les régimes où le KV cache saturait auparavant la mémoire GPU.
L'implémentation officielle de Google est attendue pour le Q2 2026. En attendant, les forks communautaires sont déjà utilisables.
Liens
Blog Google Research
Discussion llama.cpp #20969
turboquant_plus
Article Venturebeat
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.