166 t/s sur Nemotron-Labs 30B-A3B NVFP4 — le nouveau LLM le plus rapide sur Olares One, caché derrière un flag CUDA-graph
NVIDIA a sorti Nemotron-Labs Elastic 30B-A3B avec quantization NVFP4 native il y a deux semaines. Sur Olares One (RTX 5090M consumer mobile sm_120, 24 GB), la config par défaut de vLLM OOM au load. Avec un seul flag CUDA-graph bien réglé — mode PIECEWISE et capture_sizes explicites [1,2,4] — le modèle boot et tourne à 165,91 t/s. +22% vs Gemma 4, +55% vs BeeLlama sur Qwen3.6 27B, +124% vs mon build MTP-master. Nouveau champion.
Lire →