Tag · quantization

# quantization

Tous les posts taggés "quantization".

Gemma 4 12B QAT débarque — +17% speed, −39% VRAM, 65K context sur 24 Go consumer Blackwell

05.06.2026

Google a publié aujourd'hui à 13 h UTC les variants QAT (Quantization-Aware Training) de Gemma 4. Trois heures plus tard, Olares One tourne dessus. Sur le 12B : 102.78 t/s vs 87.5 baseline = +17.4% speed. 8.6 GB VRAM vs ~14 GB = −39%. Context 32K → 65K avec encore de la marge. Tool calling intact, vision intacte (modulo un piège mmproj que j'explique plus bas).
Lire →