Salut les amis !
Vous venez d’avoir votre Olares One (ou vous y pensez), et vous vous demandez pourquoi je passe mes soirées à publier des chiffres « 88 t/s », « 184 t/s », « 80 t/s avec DFlash » sur ce blog. Eh bien, toutes ces configs vivent dans une market Olares perso que vous pouvez ajouter à votre device en 30 secondes. Aujourd’hui je vous montre comment, et je vous présente les 28 apps qui sont dedans.
C’est quoi cette market
L’Olares Market officielle, c’est beclab/apps — le catalogue par défaut intégré à votre device, plein d’apps génériques pour tous les Olares.
Sauf que le One a un GPU pas comme les autres : RTX 5090 Laptop, 24 Go GDDR7, sm_120 Blackwell consumer. Et toutes les apps génériques laissent énormément de perf sur la table parce qu’elles ciblent du Ampere ou du Ada par défaut.
Du coup j’ai fait la mienne : orales-one-market. C’est aussi un market source officiel d’Olares (même API, même protocole), mais chaque app a été hand-tunée pour le 5090M : Hadamard rotation (TurboQuant), KV cache q4_0 pour doubler le contexte, sm_120 native, NO_VMM quand HAMi cogne, vLLM avec speculative decoding configuré. Bref, ce que je publie sur le blog tourne en prod chez moi avec ces apps-là.
Comment l’ajouter
Trois étapes, vraiment :
- Ouvrez Olares Market sur votre device
- Allez dans Settings → Add Source
- Collez cette URL :
https://orales-one-market.aamsellem.workers.dev
C’est tout. La market sync toutes les 5 minutes ; les apps apparaissent dans le store à côté du catalogue officiel. Vous installez celles que vous voulez, elles tournent dans votre cluster Kubernetes Olares isolé du reste, et c’est terminé.
Les 28 apps en un coup d’œil
Inférence LLM via llama.cpp (texte)
Toutes en b8667 + TurboQuant (Hadamard rotation) + KV cache q4_0 :
- llamacppqwen35a3bone — Qwen3.5 35B-A3B UD-Q4_K_XL, 129 t/s, 64K context, thinking mode
- llamacppqwen36a3bone — Qwen3.6 35B-A3B, génération suivante de Qwen3.5
- llamacppqwen36dense27bone — Qwen3.6 27B dense NVFP4
- llamacppqwen35iq4one — Qwen3.5 35B-A3B IQ4_XS, version compacte
- llamacppnemotron30a3bone — Nemotron 3 Nano 30B-A3B, 184 t/s, 128K, Mamba-2 hybride
- llamacppglm47flash — GLM-4.7-Flash 30B-A3B
- gemma426ba4bone — Gemma 4 26B-A4B (MoE + vision), 119 t/s, 64K, LMArena 1441
- gemma4e2bone — Gemma 4 E2B 2.3B (ultra-fast, voice pipeline)
- cascade230a3bone — Nemotron Cascade 2 30B-A3B (math/code specialist)
- qwen3coder30a3bone — Qwen3 Coder 30B-A3B (coding agent)
- devstralsmallone — Devstral Small 2507 (coding agent)
- nemotron3nano4bone — Nemotron 3 Nano 4B Q8 (edge AI léger)
Vision via llama.cpp
- qwen35a3bvisionone — Qwen3.5 35B-A3B + mmproj, 131 t/s, 32K, multimodal
- qwen35iq4visionone — Qwen3.5 35B-A3B Vision IQ4_XS
- qwen36a3bvisionone — Qwen3.6 35B-A3B Vision, gen suivante
DFlash speculative decoding
- dflashqwen36one — Qwen3.6 27B via DFlash (fork spiritbuun, 80 t/s sm_120)
- lucedflashqwen36one — Qwen3.6 27B via Lucebox DFlash (kernels custom Blackwell)
Inférence LLM via vLLM
- vllmqwen3527bone — Qwen3.5 27B NVFP4 + speculative decoding
- vllmqwen36dense27bone — Qwen3.6 27B dense NVFP4-MTP
- vllmqwen36turbo27bone — Qwen3.6 27B + Sandermage Genesis + TurboQuant K8V4 (mon Turbo perso, 88 t/s)
- vllmgemma4e4bone — Gemma 4 E4B (Vision + Audio) via vLLM
EXL3 / TabbyAPI
- exl3qwen35a3bone — Qwen3.5 35B-A3B EXL3 4bpw via TabbyAPI + ExLlamaV3
Voice / Audio (ASR + TTS)
- vllmvoxtral3bone — Voxtral Mini 3B ASR, 2,7× plus rapide que Whisper, 3,2 % WER
- vllmvoxtralrt4bone — Voxtral Realtime 4B streaming, WebSocket, 480 ms de latence
- vllmvoxtraltts4bone — Voxtral 4B TTS, 20 voix, 9 langues, 70 ms de latence
- qwen3ttstone — Qwen3-TTS 1.7B, 9 voix, zero-shot voice clone
- omnivoiceone — OmniVoice TTS, 646 langues, voice cloning + voice design
Créatif / Music
- acestepxlone — ACE-Step 1.5 XL, génération musicale (4B DiT, Turbo+SFT)
Pourquoi je tiens un fork plutôt que de pusher tout upstream
Parce que la market officielle vise tous les Olares (mini, pro, One). Les configs y sont nécessairement génériques. Sur le One, ça laisse 30-50 % de t/s sur la table par rapport à un tuning sm_120-spécifique. Je tiens donc ma market en parallèle pour ceux qui veulent le max, et je continue à contribuer upstream sur beclab/apps quand c’est pertinent (je suis d’ailleurs le seul contributeur externe sur ce repo).
TL;DR
URL à ajouter dans Olares Market → Settings → Add Source :
https://orales-one-market.aamsellem.workers.dev
28 apps prêtes-à-l’emploi, hand-tunées pour le 5090M de l’Olares One. Sync toutes les 5 min, mises à jour quand je tune une nouvelle config. Si ça vous fait gagner un week-end de bench, mission accomplie.
À très vite !
Disclosure — Si vous n’avez pas encore d’Olares One et que ce que vous voyez ici vous donne envie, commander via ce lien de parrainage vous donne 400 $ de réduction (3 599 $ au lieu de 3 999 $) et me rapporte 200 $. Je le mentionne par transparence — et oui, accessoirement, ça aide à faire vivre le blog (hébergement, domaine, et le temps que je passe à écrire ici). Lien valable jusqu’à fin juin 2026 environ.