Pourquoi j'ai pris un Olares One pour faire tourner mes LLMs

Salut les amis !

On me pose souvent la question : « pourquoi un Olares One et pas un Mac Studio / un gros PC GPU / un workstation Threadripper / du cloud ? ». Du coup autant en faire un post propre, plutôt qu’une réponse à la volée à chaque fois. Pas un comparatif spec-sheet — juste mon raisonnement de papa qui veut tester sérieusement de l’IA en local sans que ça bouffe ses week-ends.

Le contexte (parce que ça compte)

Deux filles adorables à la maison, un boulot à temps plein, et une envie sincère de faire tourner des LLMs en local pour vraiment comprendre ce qui marche et ce qui ne marche pas. Ça donne un cahier des charges très concret :

Pas de temps pour bricoler. Je code suffisamment au boulot, je n’ai pas envie de passer mes soirées à compiler llama.cpp à la main avec des flags exotiques. Je veux que ça démarre et que ça marche.
Une machine qui passe en salon. Si elle prend un mètre cube et fait du bruit comme une essoreuse, madame me la met dehors au bout d’une semaine. Et elle aura raison.
Du sérieux côté GPU. Pas un Raspberry Pi tuné, pas un mini PC gentillet — un vrai GPU avec assez de VRAM pour faire tourner un Qwen3 27B sans transpirer.
Sécurisé par défaut. Je n’ai pas envie d’ouvrir mon réseau perso pour bidouiller des endpoints HTTP exposés à l’arrache. Idéalement c’est étanche et basta.

Avec ce cahier des charges, on a regardé plusieurs options. Voilà comment chacune est tombée.

Mac Studio — j’aurais voulu, vraiment

Je suis pro Apple, ce n’est pas un secret. Les derniers Mac Studio, avec leur puce M-Ultra et leurs 192 ou 512 Go de mémoire unifiée — sur le papier, c’est splendide pour faire tourner des modèles énormes en local. Et le format mini Mac Studio aurait été nickel pour le salon.

Le problème, c’est la vitesse d’inférence. La mémoire unifiée fait des miracles pour la taille des modèles, mais sur du 27B en Q4 vous tournez quand même à environ la moitié de ce que sort un GPU NVIDIA équivalent. Et cet écart, on le voit en interactif — c’est la différence entre « ça suffit pour bidouiller » et « ça suffit pour s’en servir comme assistant code à la journée ».

Plus le coût : un M3 Ultra bien chargé en mémoire, on est facilement au double du prix d’un mini-PC GPU NVIDIA. Pour une vitesse d’inférence inférieure sur les modèles que je vise. Pas le bon trade-off pour ce que je voulais en faire.

Verdict : génial pour les modèles 70B+ qui ne tiennent pas en VRAM ailleurs, pas pour mon usage code/agent quotidien.

Framework Desktop / AMD Ryzen AI Max+ 395 — même histoire

J’ai aussi des potes qui sont partis sur un Framework Desktop équipé du Ryzen AI Max+ 395 avec 128 Go de mémoire unifiée. Sur le papier le combo est très tentant — APU pensé pour l’IA, format compact, et 128 Go c’est confortable pour charger de gros modèles à la maison. Sur le terrain, quand on compare les vitesses d’inférence sur les mêmes modèles, ils n’atteignent pas ce que je sors avec la 5090M sur du 27B en Q4. Même conclusion qu’avec le Mac Studio : la mémoire unifiée gagne sur la taille, pas sur le throughput.

Verdict : top si vous tournez surtout du 70B+ qui ne tient nulle part ailleurs, en dessous d’un GPU NVIDIA dédié pour mon usage quotidien d’assistant code.

PC GPU custom — j’ai déjà donné

J’ai monté des PCs depuis le collège. J’aime ça. Mais en 2026, avec deux enfants en bas âge, monter un boîtier, choisir l’alim, gérer la dissipation, mettre Linux propre, configurer CUDA, NVIDIA Container Toolkit, drivers, K8s pour orchestrer mes containers… ça représente un week-end perdu au minimum.

Et après faut maintenir tout ça. Quand un driver casse, c’est moi qui débogue. Quand un container ne démarre pas, c’est moi qui creuse les logs. C’est marrant cinq minutes, c’est pénible quand on veut juste tester un nouveau modèle un dimanche matin et qu’on se retrouve à corriger un mismatch de version pilote/CUDA.

Verdict : techniquement la meilleure perf/prix, économiquement le pire emploi de mon temps libre.

Workstation Threadripper / serveur tower — non

Trop gros, trop bruyant, trop visible. Cf. cahier des charges « passe en salon ». Verdict KO pour des raisons non-techniques, mais qui comptent quand on partage une maison.

Cloud GPU — long terme, ça pique

J’utilise du cloud pour des trucs ponctuels (RunPod, Vast, Together). Mais pour faire tourner du code-assist et des agents qui tapent sur un LLM toute la journée, à 1-2 €/h facile, ça monte vite. Et y a la latence réseau, la dépendance API, la question « si demain le provider change ses prix ou ses CGU, je fais quoi ».

Verdict : super complémentaire pour des bursts, pas un remplacement pour l’usage quotidien.

Pourquoi Olares One a gagné

J’ai découvert Olares un peu par hasard. Je cherchais une mini machine GPU avec un OS-as-a-service quand je suis tombé sur leur projet. Et là j’ai eu un déclic.

Format mini-PC. RTX 5090M 24 Go GDDR7, Core Ultra 9 275HX, 96 Go DDR5. Tout ça dans un boîtier qui prend la place d’un Mac Mini. Madame approved au premier coup d’œil. C’est pas du déco-design pur mais c’est compact, sobre, ça passe.

OS clé en main. OlaresOS, c’est leur Linux maison qui tourne sous le capot mais qui s’utilise comme un OS desktop normal. App store intégré (Olares Market), tout est containerisé proprement, on installe une app comme on installerait un truc sur un Mac. Pas de docker-compose à écrire à la main, pas de YAML pour Kubernetes — c’est déjà fait sous le capot.

Sécurisé par défaut. Tout passe par un proxy avec auth, pas de port ouvert sur Internet par accident. On accède aux services via une URL qui pointe en local via tunnel chiffré. Plus besoin de se demander si son llama.cpp est exposé à toute la planète.

Config généreuse. 96 Go de DDR5, c’est confortable pour faire tourner plusieurs containers en parallèle. Le 24 Go de VRAM est la contrainte (c’est pour ça que je ramène DFlash et compagnie dans des posts dédiés) mais on fait tenir un Qwen3 27B Q4 + drafter + agent harness sans trop souffrir.

C’est un peu le Apple de l’IA. Voilà, je l’ai dit. Je suis pro Apple — j’aime les écosystèmes intégrés où le hardware et le soft sont pensés ensemble pour que ça marche tout seul. Olares fait ça pour l’IA locale. C’est peut-être le truc qui m’a le plus convaincu : je n’ai pas envie de passer mon temps à intégrer la stack moi-même.

Le verdict après quelques mois

Je l’ai depuis quelques mois maintenant. Honnêtement ? Ça fait le job. Je code dessus tous les jours via Claude Code + un Qwen3 local en backup, je teste des configs vLLM, je tune llama.cpp, je publie des chiffres reproductibles. La machine n’a pas bronché, l’OS se met à jour propre, l’app store me sort des nouvelles apps régulièrement.

Honnêteté complète quand même : à la base mon cahier des charges disait « pas le temps de bricoler ». Sur le papier. Dans la vraie vie, ma passion pour la tech reprend le dessus dès qu’un papier ArXiv sort — je teste des forks llama.cpp instables, je compile des kernels exotiques, je casse parfois ma config un dimanche soir. Sauf que justement, c’est là que le clé en main paie : quand un test part en vrille, je reviens à un état propre en deux clics. Le socle managé d’Olares isole proprement mes bidouillages du reste de la machine. Donc oui je bricole, mais sur une base que je n’ai pas eu à monter.

Et soyons honnête jusqu’au bout : j’y passe largement plus de temps que ce que je m’étais imaginé au moment du choix. Sauf que c’est du temps que je choisis d’y mettre, pas de la maintenance subie. La nuance est de taille — et c’est exactement pour ça que je ne regrette pas la décision.

Ce qui me manque parfois : 32 Go de VRAM. Le 24 Go bloque sur certains paths exotiques (cf. DFlash impossible). Mais c’est le compromis du format mobile.

Si vous voulez en prendre un

Bonne nouvelle, l’équipe Olares m’a filé un lien d’affiliation perso (en remerciement de mes contributions communauté). Si vous comptiez en prendre un, passer par ce lien vous fait 400 $ de remise (3 599 $ au lieu de 3 999 $) et me reverse 200 $ par vente. Lien actif jusqu’à fin juin 2026 environ.

Je le mentionne par transparence — et oui, accessoirement, ça aide à faire vivre le blog (hébergement, domaine, et tout simplement le temps que je passe à écrire ici). Et puisque je sais qu’on va me poser la question : oui, je le recommanderais même sans le lien d’affiliation. La reco ne change pas, juste la possibilité d’aider le blog en passant.

TL;DR

Mac Studio : trop lent en inférence pour mon usage code/agent quotidien.
Framework Desktop (AMD AI Max+ 395, 128 Go) : pareil que le Mac — mémoire unifiée gagne sur la taille, pas sur la vitesse.
PC GPU custom : meilleure perf/prix mais pire usage de mon temps libre.
Workstation tower : trop gros, madame veto.
Cloud GPU : ponctuel oui, quotidien non (coût + dépendance).
Olares One : compromis idéal entre format compact, OS clé en main, GPU sérieux et sécurité par défaut.

C’est un choix très perso, lié à mon contexte. Si vous avez une cave avec une bonne aération et envie de bricoler, montez votre tower GPU c’est super. Si vous tournez sur des modèles 70B+ uniquement et la vitesse vous importe peu, prenez un Mac Studio. Mais pour un dev qui veut un labo IA en salon qui marche tout seul, l’Olares One a coché toutes les cases pour moi.

À très vite !