Tag · olares-one

# olares-one

Tous les posts taggés "olares-one".

166 t/s sur Nemotron-Labs 30B-A3B NVFP4 — le nouveau LLM le plus rapide sur Olares One, caché derrière un flag CUDA-graph

21.05.2026

NVIDIA a sorti Nemotron-Labs Elastic 30B-A3B avec quantization NVFP4 native il y a deux semaines. Sur Olares One (RTX 5090M consumer mobile sm_120, 24 GB), la config par défaut de vLLM OOM au load. Avec un seul flag CUDA-graph bien réglé — mode PIECEWISE et capture_sizes explicites [1,2,4] — le modèle boot et tourne à 165,91 t/s. +22% vs Gemma 4, +55% vs BeeLlama sur Qwen3.6 27B, +124% vs mon build MTP-master. Nouveau champion.
Lire →
MTP a fusionné dans llama.cpp master — et la valeur par défaut de n_max que tout le monde a ratée (86,7 % d'acceptation sur Qwen3.6 27B Blackwell mobile)

21.05.2026

Le support MTP a fusionné dans llama.cpp master le 16 mai. Cinq jours plus tard, trois PRs de suivi ont silencieusement changé le comportement de MTP — notamment la valeur par défaut de spec-draft-n-max qui passe de 16 à 3. Sur Olares One (RTX 5090M sm_120), ce changement combiné à la réécriture backend-sampling de NVIDIA (#23287) a fait passer l'acceptance des drafts MTP de 64 % à 86,7 % sur Qwen3.6 27B. +22 points. Personne n'en parle.
Lire →
Gemma 4 26B-A4B vision via vLLM — 135 t/s à 128K pour un office workhorse sur 24 GB

15.05.2026

Un peer user d'Olares One a partagé un patch Discord pour restaurer la vision sur la chart gemma426ba4bone. 24 heures plus tard, j'avais shippé un variant vLLM à 135 t/s à 128K de contexte — et le même user l'a validé en production. L'histoire d'une boucle community-driven, quatre configs llama.cpp benchées en parallèle, et le moment où turbo3 KV a cessé d'être la réponse.
Lire →
BeeLlama Qwen3.6 27B avec vision — 106 t/s à 200K sur Blackwell consumer mobile

15.05.2026

Suite du post BeeLlama text-only 262K d'hier soir — ajout du projecteur vision mmproj sur Qwen3.6 27B, je m'attendais à perdre en perf, j'ai eu une surprise contre-intuitive. BeeLlama supporte vision + DFlash spec decoding ensemble (qui crash sur Gemma 4). Et 200K de contexte bat 128K de 4,4 %. Premier bench public BeeLlama vision sur sm_120.
Lire →
BeeLlama testé sur Olares One — 107 t/s à 262K full, +48 % sur mon meilleur path

14.05.2026

La semaine dernière sur r/LocalLLaMA, un post annonce 135 t/s sur Qwen3.6 27B Q5 + 200K de contexte sur une simple RTX 3090, via un fork appelé BeeLlama.cpp. Ridicule si c'est vrai — mon meilleur path sur Olares One plafonnait à 88. J'ai voulu vérifier. Spoiler : 107 t/s à 262K full, zéro OOM, zéro dégradation. +48 % sur mon path le plus rapide. L'histoire d'un build qemu et de trois apps de mon catalogue rendues obsolètes en une nuit.
Lire →
NVIDIA a shipé FlashInfer 0.6.11 sans aucun cubin SM120/121 — FP4 MoE sur Blackwell grand public dead-on-arrival sur vLLM tant que ce gap n'est pas comblé

12.05.2026

Le bringup d'un cluster 8-node DGX Spark sur la vLLM PR
Lire →

166 t/s sur Nemotron-Labs 30B-A3B NVFP4 — le nouveau LLM le plus rapide sur Olares One, caché derrière un flag CUDA-graph

MTP a fusionné dans llama.cpp master — et la valeur par défaut de n_max que tout le monde a ratée (86,7 % d'acceptation sur Qwen3.6 27B Blackwell mobile)

Gemma 4 26B-A4B vision via vLLM — 135 t/s à 128K pour un office workhorse sur 24 GB

BeeLlama Qwen3.6 27B avec vision — 106 t/s à 200K sur Blackwell consumer mobile

BeeLlama testé sur Olares One — 107 t/s à 262K full, +48 % sur mon meilleur path

NVIDIA a shipé FlashInfer 0.6.11 sans aucun cubin SM120/121 — FP4 MoE sur Blackwell grand public dead-on-arrival sur vLLM tant que ce gap n'est pas comblé