Tag · vllm

# vllm

Tous les posts taggés "vllm".

Gemma 4 26B Vision à 250 t/s — vLLM v0.21 a rattrapé mon champion text-only

23.05.2026

Il y a deux jours j'ai shippé Qwen 3.6 35B-A3B MTP à 249 t/s sur Olares One. Text-only, mais nouveau champion. Aujourd'hui le même hardware tourne Gemma 4 26B à 250 t/s — avec vision et tool calling. Le déclencheur : vLLM v0.21 a discrètement mergé le drafter MTP officiel de Google pour Gemma 4. Plus de cycle bug 5-fast/4-slow du DFlash. Plus de fallback no-spec à 135 t/s. Juste la vitesse maximum, plus les images.
Lire →
166 t/s sur Nemotron-Labs 30B-A3B NVFP4 — le nouveau LLM le plus rapide sur Olares One, caché derrière un flag CUDA-graph

21.05.2026

NVIDIA a sorti Nemotron-Labs Elastic 30B-A3B avec quantization NVFP4 native il y a deux semaines. Sur Olares One (RTX 5090M consumer mobile sm_120, 24 GB), la config par défaut de vLLM OOM au load. Avec un seul flag CUDA-graph bien réglé — mode PIECEWISE et capture_sizes explicites [1,2,4] — le modèle boot et tourne à 165,91 t/s. +22% vs Gemma 4, +55% vs BeeLlama sur Qwen3.6 27B, +124% vs mon build MTP-master. Nouveau champion.
Lire →
Gemma 4 26B-A4B vision via vLLM — 135 t/s à 128K pour un office workhorse sur 24 GB

15.05.2026

Un peer user d'Olares One a partagé un patch Discord pour restaurer la vision sur la chart gemma426ba4bone. 24 heures plus tard, j'avais shippé un variant vLLM à 135 t/s à 128K de contexte — et le même user l'a validé en production. L'histoire d'une boucle community-driven, quatre configs llama.cpp benchées en parallèle, et le moment où turbo3 KV a cessé d'être la réponse.
Lire →
NVIDIA a shipé FlashInfer 0.6.11 sans aucun cubin SM120/121 — FP4 MoE sur Blackwell grand public dead-on-arrival sur vLLM tant que ce gap n'est pas comblé

12.05.2026

Le bringup d'un cluster 8-node DGX Spark sur la vLLM PR
Lire →
Gemma 4 26B-A4B + DFlash sur RTX 5090 Laptop 24 Go — n_spec=8 optimal, +5% vs default, et un cycle de dégradation chelou

11.05.2026

Sweep complet de num_speculative_tokens pour Gemma 4 26B-A4B + drafter DFlash z-lab sur RTX 5090M (24 Go sm_120). Optimal = n_spec=8 (pas n=15 comme en desktop). J'ai aussi trouvé un cycle de dégradation 100% reproductible que j'ai pas réussi à fixer côté config.
Lire →
Une semaine de benches sur Olares One : Gemma 4 MTP, Lucebox qui régresse, vLLM no-Genesis qui se cogne au workspace lock

08.05.2026

Du 5 au 8 mai 2026, j'ai bench tout ce qui pouvait tenir sur un RTX 5090M 24 Go. Trois trouvailles : Gemma 4 MTP via vLLM passe à 178 t/s 24 h après merge, Lucebox v1.9.0 régresse mystérieusement de 88 à 69 t/s, vLLM no-Genesis valide PR #39931 mais reste bloqué sur P65/P22/P38. Plus le ménage : 8 apps Qwen3.6 27B → 2.
Lire →

Gemma 4 26B Vision à 250 t/s — vLLM v0.21 a rattrapé mon champion text-only

166 t/s sur Nemotron-Labs 30B-A3B NVFP4 — le nouveau LLM le plus rapide sur Olares One, caché derrière un flag CUDA-graph

Gemma 4 26B-A4B vision via vLLM — 135 t/s à 128K pour un office workhorse sur 24 GB

NVIDIA a shipé FlashInfer 0.6.11 sans aucun cubin SM120/121 — FP4 MoE sur Blackwell grand public dead-on-arrival sur vLLM tant que ce gap n'est pas comblé

Gemma 4 26B-A4B + DFlash sur RTX 5090 Laptop 24 Go — n_spec=8 optimal, +5% vs default, et un cycle de dégradation chelou

Une semaine de benches sur Olares One : Gemma 4 MTP, Lucebox qui régresse, vLLM no-Genesis qui se cogne au workspace lock