Chronologie

Archives.

Tous les posts groupés par année et par mois.

2026 · 11 posts

Avril · 11

Lucebox sur Olares One — Épisode 7 : Issue #187, PR #188, et 6 hooks corrigés d'un coup

28.04.2026

Le bug est identifié : 6 hooks dans HAMi-core ignorent le return de cuCtxGetDevice. Le fix tient en 50 lignes. Mais pour qu'il bénéficie à toute la communauté HAMi, il faut le pousser upstream. Voilà comment ça s'est passé.
Lire →
Lucebox sur Olares One — Épisode 6 : On lit le code source de HAMi-core et on trouve 6 bugs

28.04.2026

NO_VMM ne fix rien. Le bug `Illegal device id` revient à chaque run. Il faut lire le code de HAMi-core. Et ce qu'on trouve, c'est pas un bug — c'est un pattern systémique présent dans 6 hooks différents.
Lire →
Lucebox sur Olares One — Épisode 5 : Le runtime nous claque la porte avec un device id négatif

28.04.2026

Image push, pod déployé, modèles téléchargés. Tout est prêt. Et puis HAMi vGPU me balance `Illegal device id: -644371744` à chaque boot, avec un nombre random qui change à chaque run. Ça pue l'uninitialized stack à plein nez.
Lire →
Lucebox sur Olares One — Épisode 4 : Le sous-module llama-server vous remet ça 1h plus tard

28.04.2026

test_dflash compile, super. Mais pour servir en HTTP il me faut llama-server, qui se compile depuis le sous-module. Et le sous-module a sa propre invocation cmake — où j'ai oublié de remettre le -rpath-link. Et boom, rebelote 1h plus tard.
Lire →
Lucebox sur Olares One — Épisode 3 : LIBRARY_PATH n'est pas ce que vous croyez

28.04.2026

On a ajouté LIBRARY_PATH et un symlink libcuda.so.1, on relance 2h de compile, et ld nous balance la même erreur. Pourquoi ? Parce que LIBRARY_PATH ne résout pas les indirect dependencies. Vous avez besoin de -Wl,-rpath-link.
Lire →
Lucebox sur Olares One — Épisode 2 : 2h de compile CUDA pour 11 undefined references

28.04.2026

Premier build Docker. 2h13 de compile CUDA pour sm_120, et au moment du link, ld vous balance 11 undefined references vers cuMemCreate, cuMemMap, cuMemAddressReserve. Pourquoi ? Parce que libcuda.so.1 n'est pas là où il devrait être.
Lire →
Lucebox sur Olares One — Épisode 1 : 134 t/s sur RTX 3090, et chez moi ?

28.04.2026

Vous traînez sur r/LocalLLaMA et vous tombez sur un post qui annonce 134 t/s sur Qwen3.6-27B en RTX 3090 grâce à Lucebox. Évidemment, vous voulez tester sur votre Olares One. Spoiler : ça va prendre 12h de compile et 6 builds Docker. Premier épisode.
Lire →
Pourquoi j'ai pris un Olares One pour faire tourner mes LLMs

28.04.2026

Le choix de la machine, en vrai. Pourquoi pas un Mac Studio, pourquoi pas un PC GPU custom, et pourquoi un Olares One a fini par gagner — vu d'un papa qui a aussi un boulot.
Lire →
Pourquoi DFlash sur Qwen3.6-27B ne tient pas sur 24 Go single GPU

28.04.2026

Trois paths testés (z-lab BF16, AEON-7 NVFP4, Lucebox). Tous demandent ≥26 Go. Math VRAM, négatifs honnêtes, ce qu'attendre pour le 24 Go.
Lire →
Genesis sur Blackwell consumer — TurboQuant débloqué pour Qwen3.6-27B sur 24 Go

28.04.2026

Patches Sandermage Genesis validés sur RTX 5090M (sm_120). TurboQuant 4-bit + MTP n=3 sur Qwen3.6-27B → 60 t/s, 100K contexte, 177K tokens KV.
Lire →
Qwen3.6-27B à 85-100 t/s sur un RTX 5090 Laptop 24 Go

26.04.2026

J'ai adapté les recettes desktop 32 Go et Ampere 24 Go à un GPU Blackwell mobile 24 Go (sm_120). Image vLLM custom, AutoRound INT4, MTP n=3 — 85-100 t/s soutenus avec 75K de contexte.
Lire →

Lucebox sur Olares One — Épisode 7 : Issue #187, PR #188, et 6 hooks corrigés d'un coup

Lucebox sur Olares One — Épisode 6 : On lit le code source de HAMi-core et on trouve 6 bugs

Lucebox sur Olares One — Épisode 5 : Le runtime nous claque la porte avec un device id négatif

Lucebox sur Olares One — Épisode 4 : Le sous-module llama-server vous remet ça 1h plus tard

Lucebox sur Olares One — Épisode 3 : LIBRARY_PATH n'est pas ce que vous croyez

Lucebox sur Olares One — Épisode 2 : 2h de compile CUDA pour 11 undefined references

Lucebox sur Olares One — Épisode 1 : 134 t/s sur RTX 3090, et chez moi ?

Pourquoi j'ai pris un Olares One pour faire tourner mes LLMs

Pourquoi DFlash sur Qwen3.6-27B ne tient pas sur 24 Go single GPU

Genesis sur Blackwell consumer — TurboQuant débloqué pour Qwen3.6-27B sur 24 Go

Qwen3.6-27B à 85-100 t/s sur un RTX 5090 Laptop 24 Go