Tag · speculative-decoding
# speculative-decoding
Tous les posts taggés "speculative-decoding".
-
Qwen3.6-27B + MTP CUDA OOM à 262K sur 24Go — réglé en descendant un cran de quant UD
Un utilisateur a tapé un CUDA OOM reproductible en MTP draft sur ma v1.0.5 de Qwen3.6-27B à 262K de contexte. Boot OK, draft scale au-delà de l'estimation statique, exit 139 dans common_speculative_state_mtp draft. Réglé en descendant havenoammo UD-Q3_K_XL (14.9 Go) vers UD-Q2_K_XL (12.3 Go). Bench direct valide v1.0.7 à 72.14 t/s stable, 262K full, zéro OOM. Bonus : test pour drop les patches Genesis via NVFP4. Spoiler : ça marche pas.
Lire → -
Gemma 4 26B-A4B + DFlash sur RTX 5090 Laptop 24 Go — n_spec=8 optimal, +5% vs default, et un cycle de dégradation chelou
Sweep complet de num_speculative_tokens pour Gemma 4 26B-A4B + drafter DFlash z-lab sur RTX 5090M (24 Go sm_120). Optimal = n_spec=8 (pas n=15 comme en desktop). J'ai aussi trouvé un cycle de dégradation 100% reproductible que j'ai pas réussi à fixer côté config.
Lire → -
Une semaine de benches sur Olares One : Gemma 4 MTP, Lucebox qui régresse, vLLM no-Genesis qui se cogne au workspace lock
Du 5 au 8 mai 2026, j'ai bench tout ce qui pouvait tenir sur un RTX 5090M 24 Go. Trois trouvailles : Gemma 4 MTP via vLLM passe à 178 t/s 24 h après merge, Lucebox v1.9.0 régresse mystérieusement de 88 à 69 t/s, vLLM no-Genesis valide PR #39931 mais reste bloqué sur P65/P22/P38. Plus le ménage : 8 apps Qwen3.6 27B → 2.
Lire → -
Gemma 4 E4B MTP sur RTX 5090M : 178 t/s, 24 h après le merge vLLM upstream
Le 6 mai à 14:39 UTC, lucianommartins merge la PR #41745 dans vLLM main : support natif des drafters Multi-Token Prediction de Gemma 4. Le 7 mai à 06:13 UTC, le nightly Docker est publié. À 06:35 UTC, mon Olares One sort 178,6 t/s avec 77,3 % d'acceptance — premier bench public Gemma 4 MTP sur Blackwell consumer mobile.
Lire → -
Quitter les 28 patches Genesis sur vLLM ? Bench vanilla : 88 → 72,5 t/s, voilà pourquoi
PR #39931 (TurboQuant hybrid) mergée dans vLLM main hier matin. J'ai testé sur Olares One avec ZÉRO Genesis patch, image vanilla vllm/vllm-openai:gemma4-0505-cu130. Verdict : 72.55 t/s avec --enforce-eager (vs 88 baseline Genesis = -17.5%). Bonus : on a recroisé deux bugs HAMi/CUDA-graph + l'issue #40807 déjà dans le pipe upstream.
Lire → -
Qwen3.6-27B sur llama.cpp upstream : +123 % gratuits avec MTP, zéro fork à maintenir
MTP arrive enfin dans llama.cpp upstream (PR #22673 par am17an, 4 mai). Bench sur Olares One RTX 5090M sm_120 : 78 t/s avec un GGUF MTP-enabled, +123% vs baseline. Pas de Lucebox, pas de Genesis, pas de fork custom permanent.
Lire →