Tag · mmproj

# mmproj

Tous les posts taggés "mmproj".

Vision débloquée sur Qwen3.6 35B-A3B MTP — 243 t/s + 262K context + image input via le --mmproj-gpu-swap de spiritbuun

24.05.2026

Il y a trois jours j'ai shippé Qwen3.6 35B-A3B MTP à 249 t/s text-only sur Olares One — le nouveau champion. Hier j'ai shippé Gemma 4 26B à 250 t/s avec vision. Aujourd'hui le champion Qwen reçoit aussi la vision. Même GPU 24 Go. Même fichier modèle. Le déclencheur : spiritbuun a mergé le 22 mai une feature appelée --mmproj-gpu-swap qui hot-swap MTP et l'encodeur vision en VRAM à la demande. Trade-off : -2.8% de throughput text, +full vision support, +4× de context vs ma tentative v1.0.5.
Lire →
Gemma 4 26B-A4B vision via vLLM — 135 t/s à 128K pour un office workhorse sur 24 GB

15.05.2026

Un peer user d'Olares One a partagé un patch Discord pour restaurer la vision sur la chart gemma426ba4bone. 24 heures plus tard, j'avais shippé un variant vLLM à 135 t/s à 128K de contexte — et le même user l'a validé en production. L'histoire d'une boucle community-driven, quatre configs llama.cpp benchées en parallèle, et le moment où turbo3 KV a cessé d'être la réponse.
Lire →
BeeLlama Qwen3.6 27B avec vision — 106 t/s à 200K sur Blackwell consumer mobile

15.05.2026

Suite du post BeeLlama text-only 262K d'hier soir — ajout du projecteur vision mmproj sur Qwen3.6 27B, je m'attendais à perdre en perf, j'ai eu une surprise contre-intuitive. BeeLlama supporte vision + DFlash spec decoding ensemble (qui crash sur Gemma 4). Et 200K de contexte bat 128K de 4,4 %. Premier bench public BeeLlama vision sur sm_120.
Lire →

Vision débloquée sur Qwen3.6 35B-A3B MTP — 243 t/s + 262K context + image input via le --mmproj-gpu-swap de spiritbuun

Gemma 4 26B-A4B vision via vLLM — 135 t/s à 128K pour un office workhorse sur 24 GB

BeeLlama Qwen3.6 27B avec vision — 106 t/s à 200K sur Blackwell consumer mobile