Tag · llama-cpp
# llama-cpp
Tous les posts taggés "llama-cpp".
-
Gemma 4 audio E4B à 288 t/s — la deuxième merge upstream ferme la famille
Hier j'ai shippé Gemma 4 12B à 170 t/s via le merge upstream PR #23398. Aujourd'hui PR #24282 (le pendant E2B/E4B) a mergé. Custom rebuild, swap chart, bench : Gemma 4 audio E4B passe de 47 t/s à 288 t/s. 6.1× speedup sur le même hardware en 5 minutes de config. Avec un piège FA en route — la combo Gemma 4 E4B + audio mmproj + MTP draft crashe le CUDA flash attention kernel, fallback no-FA débloque tout.
Lire → -
Gemma 4 12B passe à 170 t/s — le merge upstream donne +67% speed gratuit
Avant-hier j'ai shippé Gemma 4 12B QAT à 102 t/s sur Olares One. Aujourd'hui je ship 170 t/s. Même hardware. Même fichier modèle. Même drafter. Même context. Le delta : am17an's PR #23398 (Gemma 4 MTP support) qui a mergé dans llama.cpp upstream à 12h50 UTC. Mon image custom — qui était un snapshot de sa branche WIP au commit dd97604 — manquait 10+ commits de polish que ggerganov a forcés en review. +67% de speed sur le même setup, juste en rebasant. Bonus : insight critique sur le driver NVIDIA d'Olares One qui cap CUDA à 13.1 et coince tout l'écosystème upstream.
Lire → -
Gemma 4 12B QAT débarque — +17% speed, −39% VRAM, 65K context sur 24 Go consumer Blackwell
Google a publié aujourd'hui à 13 h UTC les variants QAT (Quantization-Aware Training) de Gemma 4. Trois heures plus tard, Olares One tourne dessus. Sur le 12B : 102.78 t/s vs 87.5 baseline = +17.4% speed. 8.6 GB VRAM vs ~14 GB = −39%. Context 32K → 65K avec encore de la marge. Tool calling intact, vision intacte (modulo un piège mmproj que j'explique plus bas).
Lire → -
Vision débloquée sur Qwen3.6 35B-A3B MTP — 243 t/s + 262K context + image input via le --mmproj-gpu-swap de spiritbuun
Il y a trois jours j'ai shippé Qwen3.6 35B-A3B MTP à 249 t/s text-only sur Olares One — le nouveau champion. Hier j'ai shippé Gemma 4 26B à 250 t/s avec vision. Aujourd'hui le champion Qwen reçoit aussi la vision. Même GPU 24 Go. Même fichier modèle. Le déclencheur : spiritbuun a mergé le 22 mai une feature appelée --mmproj-gpu-swap qui hot-swap MTP et l'encodeur vision en VRAM à la demande. Trade-off : -2.8% de throughput text, +full vision support, +4× de context vs ma tentative v1.0.5.
Lire → -
249 t/s sur Qwen3.6 35B-A3B MTP — le modèle plus gros qui tourne plus vite que tout ce qui est plus petit
Hier je postais que Nemotron-Labs Elastic 30B-A3B NVFP4 atteignait 166 t/s sur Olares One — puis 182 quand vLLM #40082 a atterri. Nouveau record. Titre du post : 'LLM le plus rapide sur Olares One'. Moins de 12 heures plus tard, ce record est maintenant en deuxième place. Qwen3.6 35B-A3B MTP tourne à 249 t/s sur le même hardware. Modèle plus gros, +37% plus rapide. Voici ce qui se passe.
Lire → -
MTP a fusionné dans llama.cpp master — et la valeur par défaut de n_max que tout le monde a ratée (86,7 % d'acceptation sur Qwen3.6 27B Blackwell mobile)
Le support MTP a fusionné dans llama.cpp master le 16 mai. Cinq jours plus tard, trois PRs de suivi ont silencieusement changé le comportement de MTP — notamment la valeur par défaut de spec-draft-n-max qui passe de 16 à 3. Sur Olares One (RTX 5090M sm_120), ce changement combiné à la réécriture backend-sampling de NVIDIA (#23287) a fait passer l'acceptance des drafts MTP de 64 % à 86,7 % sur Qwen3.6 27B. +22 points. Personne n'en parle.
Lire →