Faire tourner un grand modèle de langage chez soi, c'est souvent frustrant : la mémoire GPU s'épuise rapidement, les conversations longues ralentissent ou plantent, et les modèles vraiment capables restent réservés au cloud.
TurboQuant, publié par Google Research le 24 mars 2026, change la donne.
L'algorithme compresse la mémoire de travail des LLM par 6 fois sans perte de précision, et accélère les calculs jusqu'à 8 fois sur GPU haut de gamme. Concrètement, pour un utilisateur local : sur une (…)







