Tag · am17an
# am17an
Tous les posts taggés "am17an".
-
Gemma 4 12B passe à 170 t/s — le merge upstream donne +67% speed gratuit
Avant-hier j'ai shippé Gemma 4 12B QAT à 102 t/s sur Olares One. Aujourd'hui je ship 170 t/s. Même hardware. Même fichier modèle. Même drafter. Même context. Le delta : am17an's PR #23398 (Gemma 4 MTP support) qui a mergé dans llama.cpp upstream à 12h50 UTC. Mon image custom — qui était un snapshot de sa branche WIP au commit dd97604 — manquait 10+ commits de polish que ggerganov a forcés en review. +67% de speed sur le même setup, juste en rebasant. Bonus : insight critique sur le driver NVIDIA d'Olares One qui cap CUDA à 13.1 et coince tout l'écosystème upstream.
Lire → -
Gemma 4 12B QAT débarque — +17% speed, −39% VRAM, 65K context sur 24 Go consumer Blackwell
Google a publié aujourd'hui à 13 h UTC les variants QAT (Quantization-Aware Training) de Gemma 4. Trois heures plus tard, Olares One tourne dessus. Sur le 12B : 102.78 t/s vs 87.5 baseline = +17.4% speed. 8.6 GB VRAM vs ~14 GB = −39%. Context 32K → 65K avec encore de la marge. Tool calling intact, vision intacte (modulo un piège mmproj que j'explique plus bas).
Lire →