Tag · quantization
Tous les posts taggés "quantization".
Google a publié aujourd'hui à 13 h UTC les variants QAT (Quantization-Aware Training) de Gemma 4. Trois heures plus tard, Olares One tourne dessus. Sur le 12B : 102.78 t/s vs 87.5 baseline = +17.4% speed. 8.6 GB VRAM vs ~14 GB = −39%. Context 32K → 65K avec encore de la marge. Tool calling intact, vision intacte (modulo un piège mmproj que j'explique plus bas).