Archive
Tous les posts.
Tout ce que j'ai testé, tuné, benché ou découvert. Du plus récent au plus ancien.
-
Pourquoi j'ai pris un Olares One pour faire tourner mes LLMs
Le choix de la machine, en vrai. Pourquoi pas un Mac Studio, pourquoi pas un PC GPU custom, et pourquoi un Olares One a fini par gagner — vu d'un papa qui a aussi un boulot.
Lire → -
Pourquoi DFlash sur Qwen3.6-27B ne tient pas sur 24 Go single GPU
Trois paths testés (z-lab BF16, AEON-7 NVFP4, Lucebox). Tous demandent ≥26 Go. Math VRAM, négatifs honnêtes, ce qu'attendre pour le 24 Go.
Lire → -
Genesis sur Blackwell consumer — TurboQuant débloqué pour Qwen3.6-27B sur 24 Go
Patches Sandermage Genesis validés sur RTX 5090M (sm_120). TurboQuant 4-bit + MTP n=3 sur Qwen3.6-27B → 60 t/s, 100K contexte, 177K tokens KV.
Lire → -
Qwen3.6-27B à 85-100 t/s sur un RTX 5090 Laptop 24 Go
J'ai adapté les recettes desktop 32 Go et Ampere 24 Go à un GPU Blackwell mobile 24 Go (sm_120). Image vLLM custom, AutoRound INT4, MTP n=3 — 85-100 t/s soutenus avec 75K de contexte.
Lire →