Tag · llama-cpp

# llama-cpp

Tous les posts taggés "llama-cpp".

BeeLlama Qwen3.6 27B avec vision — 106 t/s à 200K sur Blackwell consumer mobile

15.05.2026

Suite du post BeeLlama text-only 262K d'hier soir — ajout du projecteur vision mmproj sur Qwen3.6 27B, je m'attendais à perdre en perf, j'ai eu une surprise contre-intuitive. BeeLlama supporte vision + DFlash spec decoding ensemble (qui crash sur Gemma 4). Et 200K de contexte bat 128K de 4,4 %. Premier bench public BeeLlama vision sur sm_120.
Lire →
BeeLlama testé sur Olares One — 107 t/s à 262K full, +48 % sur mon meilleur path

14.05.2026

La semaine dernière sur r/LocalLLaMA, un post annonce 135 t/s sur Qwen3.6 27B Q5 + 200K de contexte sur une simple RTX 3090, via un fork appelé BeeLlama.cpp. Ridicule si c'est vrai — mon meilleur path sur Olares One plafonnait à 88. J'ai voulu vérifier. Spoiler : 107 t/s à 262K full, zéro OOM, zéro dégradation. +48 % sur mon path le plus rapide. L'histoire d'un build qemu et de trois apps de mon catalogue rendues obsolètes en une nuit.
Lire →
Qwen3.6-27B + MTP CUDA OOM à 262K sur 24Go — réglé en descendant un cran de quant UD

12.05.2026

Un utilisateur a tapé un CUDA OOM reproductible en MTP draft sur ma v1.0.5 de Qwen3.6-27B à 262K de contexte. Boot OK, draft scale au-delà de l'estimation statique, exit 139 dans common_speculative_state_mtp draft. Réglé en descendant havenoammo UD-Q3_K_XL (14.9 Go) vers UD-Q2_K_XL (12.3 Go). Bench direct valide v1.0.7 à 72.14 t/s stable, 262K full, zéro OOM. Bonus : test pour drop les patches Genesis via NVFP4. Spoiler : ça marche pas.
Lire →
L'histoire de la journée où j'ai cassé mon plafond Qwen3.6 — pas avec du code, avec un nom de quelqu'un que je ne connaissais pas

09.05.2026

J'ai passé toute une journée à essayer de pousser mon Qwen3.6 27B sur Olares au-dessus de 65 t/s. Builds custom, forks expérimentaux, merges qui crashent. Et puis le soir, dans une recherche désespérée sur HuggingFace, je tombe sur un nom : havenoammo. Cinq minutes plus tard, 77 t/s sur 262K de contexte. L'histoire d'une journée à courir après une réponse qui m'attendait à portée de clic.
Lire →
Qwen3.6-27B sur llama.cpp upstream : +123 % gratuits avec MTP, zéro fork à maintenir

05.05.2026

MTP arrive enfin dans llama.cpp upstream (PR #22673 par am17an, 4 mai). Bench sur Olares One RTX 5090M sm_120 : 78 t/s avec un GGUF MTP-enabled, +123% vs baseline. Pas de Lucebox, pas de Genesis, pas de fork custom permanent.
Lire →
DFlash débloqué sur 24 Go consumer Blackwell — 80 t/s, 4 jours après le post « impossible »

04.05.2026

Il y a quatre jours j'écrivais que DFlash sur 24 Go consumer Blackwell ne tenait pas. Le 28 avril, un dev publie un drafter quantizé. Le 30 avril, je build, je teste, je tape 0,97 t/s. Le 1er mai, après mon issue, le dev fixe en 24h. Ce soir : 80 t/s. L'histoire d'une thèse qui a tenu 72 heures.
Lire →

BeeLlama Qwen3.6 27B avec vision — 106 t/s à 200K sur Blackwell consumer mobile

BeeLlama testé sur Olares One — 107 t/s à 262K full, +48 % sur mon meilleur path

Qwen3.6-27B + MTP CUDA OOM à 262K sur 24Go — réglé en descendant un cran de quant UD

L'histoire de la journée où j'ai cassé mon plafond Qwen3.6 — pas avec du code, avec un nom de quelqu'un que je ne connaissais pas

Qwen3.6-27B sur llama.cpp upstream : +123 % gratuits avec MTP, zéro fork à maintenir

DFlash débloqué sur 24 Go consumer Blackwell — 80 t/s, 4 jours après le post « impossible »