Tag · turboquant
# turboquant
Tous les posts taggés "turboquant".
-
BeeLlama Qwen3.6 27B avec vision — 106 t/s à 200K sur Blackwell consumer mobile
Suite du post BeeLlama text-only 262K d'hier soir — ajout du projecteur vision mmproj sur Qwen3.6 27B, je m'attendais à perdre en perf, j'ai eu une surprise contre-intuitive. BeeLlama supporte vision + DFlash spec decoding ensemble (qui crash sur Gemma 4). Et 200K de contexte bat 128K de 4,4 %. Premier bench public BeeLlama vision sur sm_120.
Lire → -
BeeLlama testé sur Olares One — 107 t/s à 262K full, +48 % sur mon meilleur path
La semaine dernière sur r/LocalLLaMA, un post annonce 135 t/s sur Qwen3.6 27B Q5 + 200K de contexte sur une simple RTX 3090, via un fork appelé BeeLlama.cpp. Ridicule si c'est vrai — mon meilleur path sur Olares One plafonnait à 88. J'ai voulu vérifier. Spoiler : 107 t/s à 262K full, zéro OOM, zéro dégradation. +48 % sur mon path le plus rapide. L'histoire d'un build qemu et de trois apps de mon catalogue rendues obsolètes en une nuit.
Lire → -
Quitter les 28 patches Genesis sur vLLM ? Bench vanilla : 88 → 72,5 t/s, voilà pourquoi
PR #39931 (TurboQuant hybrid) mergée dans vLLM main hier matin. J'ai testé sur Olares One avec ZÉRO Genesis patch, image vanilla vllm/vllm-openai:gemma4-0505-cu130. Verdict : 72.55 t/s avec --enforce-eager (vs 88 baseline Genesis = -17.5%). Bonus : on a recroisé deux bugs HAMi/CUDA-graph + l'issue #40807 déjà dans le pipe upstream.
Lire → -
Genesis sur Blackwell consumer — TurboQuant débloqué pour Qwen3.6-27B sur 24 Go
Patches Sandermage Genesis validés sur RTX 5090M (sm_120). TurboQuant 4-bit + MTP n=3 sur Qwen3.6-27B → 60 t/s, 100K contexte, 177K tokens KV.
Lire →