Tag · mtp

# mtp

Tous les posts taggés "mtp".

MTP a fusionné dans llama.cpp master — et la valeur par défaut de n_max que tout le monde a ratée (86,7 % d'acceptation sur Qwen3.6 27B Blackwell mobile)

21.05.2026

Le support MTP a fusionné dans llama.cpp master le 16 mai. Cinq jours plus tard, trois PRs de suivi ont silencieusement changé le comportement de MTP — notamment la valeur par défaut de spec-draft-n-max qui passe de 16 à 3. Sur Olares One (RTX 5090M sm_120), ce changement combiné à la réécriture backend-sampling de NVIDIA (#23287) a fait passer l'acceptance des drafts MTP de 64 % à 86,7 % sur Qwen3.6 27B. +22 points. Personne n'en parle.
Lire →
Qwen3.6-27B + MTP CUDA OOM à 262K sur 24Go — réglé en descendant un cran de quant UD

12.05.2026

Un utilisateur a tapé un CUDA OOM reproductible en MTP draft sur ma v1.0.5 de Qwen3.6-27B à 262K de contexte. Boot OK, draft scale au-delà de l'estimation statique, exit 139 dans common_speculative_state_mtp draft. Réglé en descendant havenoammo UD-Q3_K_XL (14.9 Go) vers UD-Q2_K_XL (12.3 Go). Bench direct valide v1.0.7 à 72.14 t/s stable, 262K full, zéro OOM. Bonus : test pour drop les patches Genesis via NVFP4. Spoiler : ça marche pas.
Lire →
L'histoire de la journée où j'ai cassé mon plafond Qwen3.6 — pas avec du code, avec un nom de quelqu'un que je ne connaissais pas

09.05.2026

J'ai passé toute une journée à essayer de pousser mon Qwen3.6 27B sur Olares au-dessus de 65 t/s. Builds custom, forks expérimentaux, merges qui crashent. Et puis le soir, dans une recherche désespérée sur HuggingFace, je tombe sur un nom : havenoammo. Cinq minutes plus tard, 77 t/s sur 262K de contexte. L'histoire d'une journée à courir après une réponse qui m'attendait à portée de clic.
Lire →
Une semaine de benches sur Olares One : Gemma 4 MTP, Lucebox qui régresse, vLLM no-Genesis qui se cogne au workspace lock

08.05.2026

Du 5 au 8 mai 2026, j'ai bench tout ce qui pouvait tenir sur un RTX 5090M 24 Go. Trois trouvailles : Gemma 4 MTP via vLLM passe à 178 t/s 24 h après merge, Lucebox v1.9.0 régresse mystérieusement de 88 à 69 t/s, vLLM no-Genesis valide PR #39931 mais reste bloqué sur P65/P22/P38. Plus le ménage : 8 apps Qwen3.6 27B → 2.
Lire →
Gemma 4 E4B MTP sur RTX 5090M : 178 t/s, 24 h après le merge vLLM upstream

08.05.2026

Le 6 mai à 14:39 UTC, lucianommartins merge la PR #41745 dans vLLM main : support natif des drafters Multi-Token Prediction de Gemma 4. Le 7 mai à 06:13 UTC, le nightly Docker est publié. À 06:35 UTC, mon Olares One sort 178,6 t/s avec 77,3 % d'acceptance — premier bench public Gemma 4 MTP sur Blackwell consumer mobile.
Lire →
Quitter les 28 patches Genesis sur vLLM ? Bench vanilla : 88 → 72,5 t/s, voilà pourquoi

06.05.2026

PR #39931 (TurboQuant hybrid) mergée dans vLLM main hier matin. J'ai testé sur Olares One avec ZÉRO Genesis patch, image vanilla vllm/vllm-openai:gemma4-0505-cu130. Verdict : 72.55 t/s avec --enforce-eager (vs 88 baseline Genesis = -17.5%). Bonus : on a recroisé deux bugs HAMi/CUDA-graph + l'issue #40807 déjà dans le pipe upstream.
Lire →

MTP a fusionné dans llama.cpp master — et la valeur par défaut de n_max que tout le monde a ratée (86,7 % d'acceptation sur Qwen3.6 27B Blackwell mobile)

Qwen3.6-27B + MTP CUDA OOM à 262K sur 24Go — réglé en descendant un cran de quant UD

L'histoire de la journée où j'ai cassé mon plafond Qwen3.6 — pas avec du code, avec un nom de quelqu'un que je ne connaissais pas

Une semaine de benches sur Olares One : Gemma 4 MTP, Lucebox qui régresse, vLLM no-Genesis qui se cogne au workspace lock

Gemma 4 E4B MTP sur RTX 5090M : 178 t/s, 24 h après le merge vLLM upstream

Quitter les 28 patches Genesis sur vLLM ? Bench vanilla : 88 → 72,5 t/s, voilà pourquoi