Tag · moe

# moe

Tous les posts taggés "moe".

249 t/s sur Qwen3.6 35B-A3B MTP — le modèle plus gros qui tourne plus vite que tout ce qui est plus petit

21.05.2026

Hier je postais que Nemotron-Labs Elastic 30B-A3B NVFP4 atteignait 166 t/s sur Olares One — puis 182 quand vLLM #40082 a atterri. Nouveau record. Titre du post : 'LLM le plus rapide sur Olares One'. Moins de 12 heures plus tard, ce record est maintenant en deuxième place. Qwen3.6 35B-A3B MTP tourne à 249 t/s sur le même hardware. Modèle plus gros, +37% plus rapide. Voici ce qui se passe.
Lire →
166 t/s sur Nemotron-Labs 30B-A3B NVFP4 — le nouveau LLM le plus rapide sur Olares One, caché derrière un flag CUDA-graph

21.05.2026

NVIDIA a sorti Nemotron-Labs Elastic 30B-A3B avec quantization NVFP4 native il y a deux semaines. Sur Olares One (RTX 5090M consumer mobile sm_120, 24 GB), la config par défaut de vLLM OOM au load. Avec un seul flag CUDA-graph bien réglé — mode PIECEWISE et capture_sizes explicites [1,2,4] — le modèle boot et tourne à 165,91 t/s. +22% vs Gemma 4, +55% vs BeeLlama sur Qwen3.6 27B, +124% vs mon build MTP-master. Nouveau champion.
Lire →