Tag · mtp

# mtp

Tous les posts taggés "mtp".

Qwen3.6-27B sur llama.cpp upstream : +123 % gratuits avec MTP, zéro fork à maintenir

05.05.2026

MTP arrive enfin dans llama.cpp upstream (PR #22673 par am17an, 4 mai). Bench sur Olares One RTX 5090M sm_120 : 78 t/s avec un GGUF MTP-enabled, +123% vs baseline. Pas de Lucebox, pas de Genesis, pas de fork custom permanent.
Lire →
Genesis sur Blackwell consumer — TurboQuant débloqué pour Qwen3.6-27B sur 24 Go

28.04.2026

Patches Sandermage Genesis validés sur RTX 5090M (sm_120). TurboQuant 4-bit + MTP n=3 sur Qwen3.6-27B → 60 t/s, 100K contexte, 177K tokens KV.
Lire →
Qwen3.6-27B à 85-100 t/s sur un RTX 5090 Laptop 24 Go

26.04.2026

J'ai adapté les recettes desktop 32 Go et Ampere 24 Go à un GPU Blackwell mobile 24 Go (sm_120). Image vLLM custom, AutoRound INT4, MTP n=3 — 85-100 t/s soutenus avec 75K de contexte.
Lire →