Tag · speculative-decoding
# speculative-decoding
Tous les posts taggés "speculative-decoding".
-
Gemma 4 audio E4B à 288 t/s — la deuxième merge upstream ferme la famille
Hier j'ai shippé Gemma 4 12B à 170 t/s via le merge upstream PR #23398. Aujourd'hui PR #24282 (le pendant E2B/E4B) a mergé. Custom rebuild, swap chart, bench : Gemma 4 audio E4B passe de 47 t/s à 288 t/s. 6.1× speedup sur le même hardware en 5 minutes de config. Avec un piège FA en route — la combo Gemma 4 E4B + audio mmproj + MTP draft crashe le CUDA flash attention kernel, fallback no-FA débloque tout.
Lire → -
Vision débloquée sur Qwen3.6 35B-A3B MTP — 243 t/s + 262K context + image input via le --mmproj-gpu-swap de spiritbuun
Il y a trois jours j'ai shippé Qwen3.6 35B-A3B MTP à 249 t/s text-only sur Olares One — le nouveau champion. Hier j'ai shippé Gemma 4 26B à 250 t/s avec vision. Aujourd'hui le champion Qwen reçoit aussi la vision. Même GPU 24 Go. Même fichier modèle. Le déclencheur : spiritbuun a mergé le 22 mai une feature appelée --mmproj-gpu-swap qui hot-swap MTP et l'encodeur vision en VRAM à la demande. Trade-off : -2.8% de throughput text, +full vision support, +4× de context vs ma tentative v1.0.5.
Lire → -
Gemma 4 26B Vision à 250 t/s — vLLM v0.21 a rattrapé mon champion text-only
Il y a deux jours j'ai shippé Qwen 3.6 35B-A3B MTP à 249 t/s sur Olares One. Text-only, mais nouveau champion. Aujourd'hui le même hardware tourne Gemma 4 26B à 250 t/s — avec vision et tool calling. Le déclencheur : vLLM v0.21 a discrètement mergé le drafter MTP officiel de Google pour Gemma 4. Plus de cycle bug 5-fast/4-slow du DFlash. Plus de fallback no-spec à 135 t/s. Juste la vitesse maximum, plus les images.
Lire → -
249 t/s sur Qwen3.6 35B-A3B MTP — le modèle plus gros qui tourne plus vite que tout ce qui est plus petit
Hier je postais que Nemotron-Labs Elastic 30B-A3B NVFP4 atteignait 166 t/s sur Olares One — puis 182 quand vLLM #40082 a atterri. Nouveau record. Titre du post : 'LLM le plus rapide sur Olares One'. Moins de 12 heures plus tard, ce record est maintenant en deuxième place. Qwen3.6 35B-A3B MTP tourne à 249 t/s sur le même hardware. Modèle plus gros, +37% plus rapide. Voici ce qui se passe.
Lire → -
MTP a fusionné dans llama.cpp master — et la valeur par défaut de n_max que tout le monde a ratée (86,7 % d'acceptation sur Qwen3.6 27B Blackwell mobile)
Le support MTP a fusionné dans llama.cpp master le 16 mai. Cinq jours plus tard, trois PRs de suivi ont silencieusement changé le comportement de MTP — notamment la valeur par défaut de spec-draft-n-max qui passe de 16 à 3. Sur Olares One (RTX 5090M sm_120), ce changement combiné à la réécriture backend-sampling de NVIDIA (#23287) a fait passer l'acceptance des drafts MTP de 64 % à 86,7 % sur Qwen3.6 27B. +22 points. Personne n'en parle.
Lire → -
BeeLlama testé sur Olares One — 107 t/s à 262K full, +48 % sur mon meilleur path
La semaine dernière sur r/LocalLLaMA, un post annonce 135 t/s sur Qwen3.6 27B Q5 + 200K de contexte sur une simple RTX 3090, via un fork appelé BeeLlama.cpp. Ridicule si c'est vrai — mon meilleur path sur Olares One plafonnait à 88. J'ai voulu vérifier. Spoiler : 107 t/s à 262K full, zéro OOM, zéro dégradation. +48 % sur mon path le plus rapide. L'histoire d'un build qemu et de trois apps de mon catalogue rendues obsolètes en une nuit.
Lire →