Tag · mtp
# mtp
Tous les posts taggés "mtp".
-
Qwen3.6-27B sur llama.cpp upstream : +123 % gratuits avec MTP, zéro fork à maintenir
MTP arrive enfin dans llama.cpp upstream (PR #22673 par am17an, 4 mai). Bench sur Olares One RTX 5090M sm_120 : 78 t/s avec un GGUF MTP-enabled, +123% vs baseline. Pas de Lucebox, pas de Genesis, pas de fork custom permanent.
Lire → -
Genesis sur Blackwell consumer — TurboQuant débloqué pour Qwen3.6-27B sur 24 Go
Patches Sandermage Genesis validés sur RTX 5090M (sm_120). TurboQuant 4-bit + MTP n=3 sur Qwen3.6-27B → 60 t/s, 100K contexte, 177K tokens KV.
Lire → -
Qwen3.6-27B à 85-100 t/s sur un RTX 5090 Laptop 24 Go
J'ai adapté les recettes desktop 32 Go et Ampere 24 Go à un GPU Blackwell mobile 24 Go (sm_120). Image vLLM custom, AutoRound INT4, MTP n=3 — 85-100 t/s soutenus avec 75K de contexte.
Lire →