Tag · speculative-decoding

# speculative-decoding

Tous les posts taggés "speculative-decoding".

DFlash débloqué sur 24 Go consumer Blackwell — 80 t/s, 4 jours après le post « impossible »

04.05.2026

Il y a quatre jours j'écrivais que DFlash sur 24 Go consumer Blackwell ne tenait pas. Le 28 avril, un dev publie un drafter quantizé. Le 30 avril, je build, je teste, je tape 0,97 t/s. Le 1er mai, après mon issue, le dev fixe en 24h. Ce soir : 80 t/s. L'histoire d'une thèse qui a tenu 72 heures.
Lire →
Pourquoi DFlash sur Qwen3.6-27B ne tient pas sur 24 Go single GPU

28.04.2026

Trois paths testés (z-lab BF16, AEON-7 NVFP4, Lucebox). Tous demandent ≥26 Go. Math VRAM, négatifs honnêtes, ce qu'attendre pour le 24 Go.
Lire →
Genesis sur Blackwell consumer — TurboQuant débloqué pour Qwen3.6-27B sur 24 Go

28.04.2026

Patches Sandermage Genesis validés sur RTX 5090M (sm_120). TurboQuant 4-bit + MTP n=3 sur Qwen3.6-27B → 60 t/s, 100K contexte, 177K tokens KV.
Lire →
Qwen3.6-27B à 85-100 t/s sur un RTX 5090 Laptop 24 Go

26.04.2026

J'ai adapté les recettes desktop 32 Go et Ampere 24 Go à un GPU Blackwell mobile 24 Go (sm_120). Image vLLM custom, AutoRound INT4, MTP n=3 — 85-100 t/s soutenus avec 75K de contexte.
Lire →