Tag · blackwell

# blackwell

Tous les posts taggés "blackwell".

Gemma 4 audio E4B à 288 t/s — la deuxième merge upstream ferme la famille

09.06.2026

Hier j'ai shippé Gemma 4 12B à 170 t/s via le merge upstream PR #23398. Aujourd'hui PR #24282 (le pendant E2B/E4B) a mergé. Custom rebuild, swap chart, bench : Gemma 4 audio E4B passe de 47 t/s à 288 t/s. 6.1× speedup sur le même hardware en 5 minutes de config. Avec un piège FA en route — la combo Gemma 4 E4B + audio mmproj + MTP draft crashe le CUDA flash attention kernel, fallback no-FA débloque tout.
Lire →
Gemma 4 12B passe à 170 t/s — le merge upstream donne +67% speed gratuit

08.06.2026

Avant-hier j'ai shippé Gemma 4 12B QAT à 102 t/s sur Olares One. Aujourd'hui je ship 170 t/s. Même hardware. Même fichier modèle. Même drafter. Même context. Le delta : am17an's PR #23398 (Gemma 4 MTP support) qui a mergé dans llama.cpp upstream à 12h50 UTC. Mon image custom — qui était un snapshot de sa branche WIP au commit dd97604 — manquait 10+ commits de polish que ggerganov a forcés en review. +67% de speed sur le même setup, juste en rebasant. Bonus : insight critique sur le driver NVIDIA d'Olares One qui cap CUDA à 13.1 et coince tout l'écosystème upstream.
Lire →
Gemma 4 12B QAT débarque — +17% speed, −39% VRAM, 65K context sur 24 Go consumer Blackwell

05.06.2026

Google a publié aujourd'hui à 13 h UTC les variants QAT (Quantization-Aware Training) de Gemma 4. Trois heures plus tard, Olares One tourne dessus. Sur le 12B : 102.78 t/s vs 87.5 baseline = +17.4% speed. 8.6 GB VRAM vs ~14 GB = −39%. Context 32K → 65K avec encore de la marge. Tool calling intact, vision intacte (modulo un piège mmproj que j'explique plus bas).
Lire →
Vision débloquée sur Qwen3.6 35B-A3B MTP — 243 t/s + 262K context + image input via le --mmproj-gpu-swap de spiritbuun

24.05.2026

Il y a trois jours j'ai shippé Qwen3.6 35B-A3B MTP à 249 t/s text-only sur Olares One — le nouveau champion. Hier j'ai shippé Gemma 4 26B à 250 t/s avec vision. Aujourd'hui le champion Qwen reçoit aussi la vision. Même GPU 24 Go. Même fichier modèle. Le déclencheur : spiritbuun a mergé le 22 mai une feature appelée --mmproj-gpu-swap qui hot-swap MTP et l'encodeur vision en VRAM à la demande. Trade-off : -2.8% de throughput text, +full vision support, +4× de context vs ma tentative v1.0.5.
Lire →
Gemma 4 26B Vision à 250 t/s — vLLM v0.21 a rattrapé mon champion text-only

23.05.2026

Il y a deux jours j'ai shippé Qwen 3.6 35B-A3B MTP à 249 t/s sur Olares One. Text-only, mais nouveau champion. Aujourd'hui le même hardware tourne Gemma 4 26B à 250 t/s — avec vision et tool calling. Le déclencheur : vLLM v0.21 a discrètement mergé le drafter MTP officiel de Google pour Gemma 4. Plus de cycle bug 5-fast/4-slow du DFlash. Plus de fallback no-spec à 135 t/s. Juste la vitesse maximum, plus les images.
Lire →
249 t/s sur Qwen3.6 35B-A3B MTP — le modèle plus gros qui tourne plus vite que tout ce qui est plus petit

21.05.2026

Hier je postais que Nemotron-Labs Elastic 30B-A3B NVFP4 atteignait 166 t/s sur Olares One — puis 182 quand vLLM #40082 a atterri. Nouveau record. Titre du post : 'LLM le plus rapide sur Olares One'. Moins de 12 heures plus tard, ce record est maintenant en deuxième place. Qwen3.6 35B-A3B MTP tourne à 249 t/s sur le même hardware. Modèle plus gros, +37% plus rapide. Voici ce qui se passe.
Lire →

Gemma 4 audio E4B à 288 t/s — la deuxième merge upstream ferme la famille

Gemma 4 12B passe à 170 t/s — le merge upstream donne +67% speed gratuit

Gemma 4 12B QAT débarque — +17% speed, −39% VRAM, 65K context sur 24 Go consumer Blackwell

Vision débloquée sur Qwen3.6 35B-A3B MTP — 243 t/s + 262K context + image input via le --mmproj-gpu-swap de spiritbuun

Gemma 4 26B Vision à 250 t/s — vLLM v0.21 a rattrapé mon champion text-only

249 t/s sur Qwen3.6 35B-A3B MTP — le modèle plus gros qui tourne plus vite que tout ce qui est plus petit