Tag · dflash

# dflash

Tous les posts taggés "dflash".

BeeLlama Qwen3.6 27B avec vision — 106 t/s à 200K sur Blackwell consumer mobile

15.05.2026

Suite du post BeeLlama text-only 262K d'hier soir — ajout du projecteur vision mmproj sur Qwen3.6 27B, je m'attendais à perdre en perf, j'ai eu une surprise contre-intuitive. BeeLlama supporte vision + DFlash spec decoding ensemble (qui crash sur Gemma 4). Et 200K de contexte bat 128K de 4,4 %. Premier bench public BeeLlama vision sur sm_120.
Lire →
BeeLlama testé sur Olares One — 107 t/s à 262K full, +48 % sur mon meilleur path

14.05.2026

La semaine dernière sur r/LocalLLaMA, un post annonce 135 t/s sur Qwen3.6 27B Q5 + 200K de contexte sur une simple RTX 3090, via un fork appelé BeeLlama.cpp. Ridicule si c'est vrai — mon meilleur path sur Olares One plafonnait à 88. J'ai voulu vérifier. Spoiler : 107 t/s à 262K full, zéro OOM, zéro dégradation. +48 % sur mon path le plus rapide. L'histoire d'un build qemu et de trois apps de mon catalogue rendues obsolètes en une nuit.
Lire →
Gemma 4 26B-A4B + DFlash sur RTX 5090 Laptop 24 Go — n_spec=8 optimal, +5% vs default, et un cycle de dégradation chelou

11.05.2026

Sweep complet de num_speculative_tokens pour Gemma 4 26B-A4B + drafter DFlash z-lab sur RTX 5090M (24 Go sm_120). Optimal = n_spec=8 (pas n=15 comme en desktop). J'ai aussi trouvé un cycle de dégradation 100% reproductible que j'ai pas réussi à fixer côté config.
Lire →
Lucebox sur Olares One — Épisode 9 : la PR qui annonçait +57 % et qui livre +0,2 %

05.05.2026

Hier soir, Lucebox passait à 88,5 t/s sur Olares One et devenait le nouveau champion. Ce matin la PR #94 annonce +57 % sur RTX 4090. Si ça scale, on tape 120 t/s. Spoiler : 88,7 t/s. Sweep DDTree complet, trois hypothèses, la leçon honnête sur les benchs upstream qui ne se reproduisent pas.
Lire →
Lucebox sur Olares One — Épisode 8 : sept jours d'attente, une lib swappée à la main, 88,5 t/s

04.05.2026

Sept jours après ma PR #188 chez HAMi-core, toujours pas de review. La saga avait son cliffhanger — j'attendais quelqu'un d'autre. Et puis une idée stupide : compiler ma lib patchée et la swap moi-même. Trois bugs nouveaux, une nuit, et au bout du chemin Lucebox tape 88,5 t/s. Premier path llama.cpp à passer devant vLLM Turbo sur ce hardware.
Lire →
DFlash débloqué sur 24 Go consumer Blackwell — 80 t/s, 4 jours après le post « impossible »

04.05.2026

Il y a quatre jours j'écrivais que DFlash sur 24 Go consumer Blackwell ne tenait pas. Le 28 avril, un dev publie un drafter quantizé. Le 30 avril, je build, je teste, je tape 0,97 t/s. Le 1er mai, après mon issue, le dev fixe en 24h. Ce soir : 80 t/s. L'histoire d'une thèse qui a tenu 72 heures.
Lire →

BeeLlama Qwen3.6 27B avec vision — 106 t/s à 200K sur Blackwell consumer mobile

BeeLlama testé sur Olares One — 107 t/s à 262K full, +48 % sur mon meilleur path

Gemma 4 26B-A4B + DFlash sur RTX 5090 Laptop 24 Go — n_spec=8 optimal, +5% vs default, et un cycle de dégradation chelou

Lucebox sur Olares One — Épisode 9 : la PR qui annonçait +57 % et qui livre +0,2 %

Lucebox sur Olares One — Épisode 8 : sept jours d'attente, une lib swappée à la main, 88,5 t/s

DFlash débloqué sur 24 Go consumer Blackwell — 80 t/s, 4 jours après le post « impossible »