Ma market Olares perso — 28 apps tunées pour l'Olares One, à un clic

Salut les amis !

Vous venez d’avoir votre Olares One (ou vous y pensez), et vous vous demandez pourquoi je passe mes soirées à publier des chiffres « 88 t/s », « 184 t/s », « 80 t/s avec DFlash » sur ce blog. Eh bien, toutes ces configs vivent dans une market Olares perso que vous pouvez ajouter à votre device en 30 secondes. Aujourd’hui je vous montre comment, et je vous présente les 28 apps qui sont dedans.

C’est quoi cette market

L’Olares Market officielle, c’est beclab/apps — le catalogue par défaut intégré à votre device, plein d’apps génériques pour tous les Olares.

Sauf que le One a un GPU pas comme les autres : RTX 5090 Laptop, 24 Go GDDR7, sm_120 Blackwell consumer. Et toutes les apps génériques laissent énormément de perf sur la table parce qu’elles ciblent du Ampere ou du Ada par défaut.

Du coup j’ai fait la mienne : orales-one-market. C’est aussi un market source officiel d’Olares (même API, même protocole), mais chaque app a été hand-tunée pour le 5090M : Hadamard rotation (TurboQuant), KV cache q4_0 pour doubler le contexte, sm_120 native, NO_VMM quand HAMi cogne, vLLM avec speculative decoding configuré. Bref, ce que je publie sur le blog tourne en prod chez moi avec ces apps-là.

Comment l’ajouter

Trois étapes, vraiment :

Ouvrez Olares Market sur votre device
Allez dans Settings → Add Source
Collez cette URL :

https://orales-one-market.aamsellem.workers.dev

C’est tout. La market sync toutes les 5 minutes ; les apps apparaissent dans le store à côté du catalogue officiel. Vous installez celles que vous voulez, elles tournent dans votre cluster Kubernetes Olares isolé du reste, et c’est terminé.

Les 28 apps en un coup d’œil

Inférence LLM via llama.cpp (texte)

Toutes en b8667 + TurboQuant (Hadamard rotation) + KV cache q4_0 :

llamacppqwen35a3bone — Qwen3.5 35B-A3B UD-Q4_K_XL, 129 t/s, 64K context, thinking mode
llamacppqwen36a3bone — Qwen3.6 35B-A3B, génération suivante de Qwen3.5
llamacppqwen36dense27bone — Qwen3.6 27B dense NVFP4
llamacppqwen35iq4one — Qwen3.5 35B-A3B IQ4_XS, version compacte
llamacppnemotron30a3bone — Nemotron 3 Nano 30B-A3B, 184 t/s, 128K, Mamba-2 hybride
llamacppglm47flash — GLM-4.7-Flash 30B-A3B
gemma426ba4bone — Gemma 4 26B-A4B (MoE + vision), 119 t/s, 64K, LMArena 1441
gemma4e2bone — Gemma 4 E2B 2.3B (ultra-fast, voice pipeline)
cascade230a3bone — Nemotron Cascade 2 30B-A3B (math/code specialist)
qwen3coder30a3bone — Qwen3 Coder 30B-A3B (coding agent)
devstralsmallone — Devstral Small 2507 (coding agent)
nemotron3nano4bone — Nemotron 3 Nano 4B Q8 (edge AI léger)

Vision via llama.cpp

qwen35a3bvisionone — Qwen3.5 35B-A3B + mmproj, 131 t/s, 32K, multimodal
qwen35iq4visionone — Qwen3.5 35B-A3B Vision IQ4_XS
qwen36a3bvisionone — Qwen3.6 35B-A3B Vision, gen suivante

DFlash speculative decoding

dflashqwen36one — Qwen3.6 27B via DFlash (fork spiritbuun, 80 t/s sm_120)
lucedflashqwen36one — Qwen3.6 27B via Lucebox DFlash (kernels custom Blackwell)

Inférence LLM via vLLM

vllmqwen3527bone — Qwen3.5 27B NVFP4 + speculative decoding
vllmqwen36dense27bone — Qwen3.6 27B dense NVFP4-MTP
vllmqwen36turbo27bone — Qwen3.6 27B + Sandermage Genesis + TurboQuant K8V4 (mon Turbo perso, 88 t/s)
vllmgemma4e4bone — Gemma 4 E4B (Vision + Audio) via vLLM

EXL3 / TabbyAPI

exl3qwen35a3bone — Qwen3.5 35B-A3B EXL3 4bpw via TabbyAPI + ExLlamaV3

Voice / Audio (ASR + TTS)

vllmvoxtral3bone — Voxtral Mini 3B ASR, 2,7× plus rapide que Whisper, 3,2 % WER
vllmvoxtralrt4bone — Voxtral Realtime 4B streaming, WebSocket, 480 ms de latence
vllmvoxtraltts4bone — Voxtral 4B TTS, 20 voix, 9 langues, 70 ms de latence
qwen3ttstone — Qwen3-TTS 1.7B, 9 voix, zero-shot voice clone
omnivoiceone — OmniVoice TTS, 646 langues, voice cloning + voice design

Créatif / Music

acestepxlone — ACE-Step 1.5 XL, génération musicale (4B DiT, Turbo+SFT)

Pourquoi je tiens un fork plutôt que de pusher tout upstream

Parce que la market officielle vise tous les Olares (mini, pro, One). Les configs y sont nécessairement génériques. Sur le One, ça laisse 30-50 % de t/s sur la table par rapport à un tuning sm_120-spécifique. Je tiens donc ma market en parallèle pour ceux qui veulent le max, et je continue à contribuer upstream sur beclab/apps quand c’est pertinent (je suis d’ailleurs le seul contributeur externe sur ce repo).

TL;DR

URL à ajouter dans Olares Market → Settings → Add Source :

https://orales-one-market.aamsellem.workers.dev

28 apps prêtes-à-l’emploi, hand-tunées pour le 5090M de l’Olares One. Sync toutes les 5 min, mises à jour quand je tune une nouvelle config. Si ça vous fait gagner un week-end de bench, mission accomplie.

À très vite !

Disclosure — Si vous n’avez pas encore d’Olares One et que ce que vous voyez ici vous donne envie, commander via ce lien de parrainage vous donne 400 $ de réduction (3 599 $ au lieu de 3 999 $) et me rapporte 200 $. Je le mentionne par transparence — et oui, accessoirement, ça aide à faire vivre le blog (hébergement, domaine, et le temps que je passe à écrire ici). Lien valable jusqu’à fin juin 2026 environ.