Chronologie

Archives.

Tous les posts groupés par année et par mois.

2026 · 34 posts

Juin · 3

Gemma 4 audio E4B à 288 t/s — la deuxième merge upstream ferme la famille

09.06.2026

Hier j'ai shippé Gemma 4 12B à 170 t/s via le merge upstream PR #23398. Aujourd'hui PR #24282 (le pendant E2B/E4B) a mergé. Custom rebuild, swap chart, bench : Gemma 4 audio E4B passe de 47 t/s à 288 t/s. 6.1× speedup sur le même hardware en 5 minutes de config. Avec un piège FA en route — la combo Gemma 4 E4B + audio mmproj + MTP draft crashe le CUDA flash attention kernel, fallback no-FA débloque tout.
Lire →
Gemma 4 12B passe à 170 t/s — le merge upstream donne +67% speed gratuit

08.06.2026

Avant-hier j'ai shippé Gemma 4 12B QAT à 102 t/s sur Olares One. Aujourd'hui je ship 170 t/s. Même hardware. Même fichier modèle. Même drafter. Même context. Le delta : am17an's PR #23398 (Gemma 4 MTP support) qui a mergé dans llama.cpp upstream à 12h50 UTC. Mon image custom — qui était un snapshot de sa branche WIP au commit dd97604 — manquait 10+ commits de polish que ggerganov a forcés en review. +67% de speed sur le même setup, juste en rebasant. Bonus : insight critique sur le driver NVIDIA d'Olares One qui cap CUDA à 13.1 et coince tout l'écosystème upstream.
Lire →
Gemma 4 12B QAT débarque — +17% speed, −39% VRAM, 65K context sur 24 Go consumer Blackwell

05.06.2026

Google a publié aujourd'hui à 13 h UTC les variants QAT (Quantization-Aware Training) de Gemma 4. Trois heures plus tard, Olares One tourne dessus. Sur le 12B : 102.78 t/s vs 87.5 baseline = +17.4% speed. 8.6 GB VRAM vs ~14 GB = −39%. Context 32K → 65K avec encore de la marge. Tool calling intact, vision intacte (modulo un piège mmproj que j'explique plus bas).
Lire →

Mai · 20

Avril · 11

Archives.

Gemma 4 audio E4B à 288 t/s — la deuxième merge upstream ferme la famille

Gemma 4 12B passe à 170 t/s — le merge upstream donne +67% speed gratuit

Gemma 4 12B QAT débarque — +17% speed, −39% VRAM, 65K context sur 24 Go consumer Blackwell

Vision débloquée sur Qwen3.6 35B-A3B MTP — 243 t/s + 262K context + image input via le --mmproj-gpu-swap de spiritbuun

Gemma 4 26B Vision à 250 t/s — vLLM v0.21 a rattrapé mon champion text-only

249 t/s sur Qwen3.6 35B-A3B MTP — le modèle plus gros qui tourne plus vite que tout ce qui est plus petit

166 t/s sur Nemotron-Labs 30B-A3B NVFP4 — le nouveau LLM le plus rapide sur Olares One, caché derrière un flag CUDA-graph

MTP a fusionné dans llama.cpp master — et la valeur par défaut de n_max que tout le monde a ratée (86,7 % d'acceptation sur Qwen3.6 27B Blackwell mobile)

Gemma 4 26B-A4B vision via vLLM — 135 t/s à 128K pour un office workhorse sur 24 GB

BeeLlama Qwen3.6 27B avec vision — 106 t/s à 200K sur Blackwell consumer mobile

BeeLlama testé sur Olares One — 107 t/s à 262K full, +48 % sur mon meilleur path

NVIDIA a shipé FlashInfer 0.6.11 sans aucun cubin SM120/121 — FP4 MoE sur Blackwell grand public dead-on-arrival sur vLLM tant que ce gap n'est pas comblé

Qwen3.6-27B + MTP CUDA OOM à 262K sur 24Go — réglé en descendant un cran de quant UD

Gemma 4 26B-A4B + DFlash sur RTX 5090 Laptop 24 Go — n_spec=8 optimal, +5% vs default, et un cycle de dégradation chelou

L'histoire de la journée où j'ai cassé mon plafond Qwen3.6 — pas avec du code, avec un nom de quelqu'un que je ne connaissais pas

Une semaine de benches sur Olares One : Gemma 4 MTP, Lucebox qui régresse, vLLM no-Genesis qui se cogne au workspace lock

Gemma 4 E4B MTP sur RTX 5090M : 178 t/s, 24 h après le merge vLLM upstream

Quitter les 28 patches Genesis sur vLLM ? Bench vanilla : 88 → 72,5 t/s, voilà pourquoi

Qwen3.6-27B sur llama.cpp upstream : +123 % gratuits avec MTP, zéro fork à maintenir

Lucebox sur Olares One — Épisode 9 : la PR qui annonçait +57 % et qui livre +0,2 %

Lucebox sur Olares One — Épisode 8 : sept jours d'attente, une lib swappée à la main, 88,5 t/s

Ma market Olares perso — 28 apps tunées pour l'Olares One, à un clic

DFlash débloqué sur 24 Go consumer Blackwell — 80 t/s, 4 jours après le post « impossible »

Lucebox sur Olares One — Épisode 7 : six hooks HAMi corrigés upstream d'un coup

Lucebox sur Olares One — Épisode 6 : On lit le code source de HAMi-core et on trouve 6 bugs

Lucebox sur Olares One — Épisode 5 : Le runtime nous claque la porte avec un device id négatif

Lucebox sur Olares One — Épisode 4 : Le sous-module llama-server vous remet ça 1h plus tard

Lucebox sur Olares One — Épisode 3 : LIBRARY_PATH n'est pas ce que vous croyez

Lucebox sur Olares One — Épisode 2 : 2h de compile CUDA pour 11 undefined references

Lucebox sur Olares One — Épisode 1 : 134 t/s sur RTX 3090, et chez moi ?

Pourquoi j'ai pris un Olares One pour faire tourner mes LLMs

Pourquoi DFlash sur Qwen3.6-27B ne tient pas sur 24 Go single GPU

Genesis sur Blackwell consumer — TurboQuant débloqué pour Qwen3.6-27B sur 24 Go

Qwen3.6-27B à 85-100 t/s sur un RTX 5090 Laptop 24 Go