Tag · vllm
# vllm
Tous les posts taggés "vllm".
-
Gemma 4 E4B MTP sur RTX 5090M : 178 t/s, 24 h après le merge vLLM upstream
Le 6 mai à 14:39 UTC, lucianommartins merge la PR #41745 dans vLLM main : support natif des drafters Multi-Token Prediction de Gemma 4. Le 7 mai à 06:13 UTC, le nightly Docker est publié. À 06:35 UTC, mon Olares One sort 178,6 t/s avec 77,3 % d'acceptance — premier bench public Gemma 4 MTP sur Blackwell consumer mobile.
Lire → -
Quitter les 28 patches Genesis sur vLLM ? Bench vanilla : 88 → 72,5 t/s, voilà pourquoi
PR #39931 (TurboQuant hybrid) mergée dans vLLM main hier matin. J'ai testé sur Olares One avec ZÉRO Genesis patch, image vanilla vllm/vllm-openai:gemma4-0505-cu130. Verdict : 72.55 t/s avec --enforce-eager (vs 88 baseline Genesis = -17.5%). Bonus : on a recroisé deux bugs HAMi/CUDA-graph + l'issue #40807 déjà dans le pipe upstream.
Lire → -
Ma market Olares perso — 28 apps tunées pour l'Olares One, à un clic
Une market Olares custom hand-tunée pour le RTX 5090M de l'Olares One. 28 apps prêtes-à-l'emploi : llama.cpp, vLLM, DFlash, Voxtral ASR/TTS, vision, music. Comment l'ajouter à votre device en 30 secondes.
Lire → -
Pourquoi DFlash sur Qwen3.6-27B ne tient pas sur 24 Go single GPU
Trois paths testés (z-lab BF16, AEON-7 NVFP4, Lucebox). Tous demandent ≥26 Go. Math VRAM, négatifs honnêtes, ce qu'attendre pour le 24 Go.
Lire → -
Genesis sur Blackwell consumer — TurboQuant débloqué pour Qwen3.6-27B sur 24 Go
Patches Sandermage Genesis validés sur RTX 5090M (sm_120). TurboQuant 4-bit + MTP n=3 sur Qwen3.6-27B → 60 t/s, 100K contexte, 177K tokens KV.
Lire → -
Qwen3.6-27B à 85-100 t/s sur un RTX 5090 Laptop 24 Go
J'ai adapté les recettes desktop 32 Go et Ampere 24 Go à un GPU Blackwell mobile 24 Go (sm_120). Image vLLM custom, AutoRound INT4, MTP n=3 — 85-100 t/s soutenus avec 75K de contexte.
Lire →