Tag · tool-calling
Tous les posts taggés "tool-calling".
Il y a deux jours j'ai shippé Qwen 3.6 35B-A3B MTP à 249 t/s sur Olares One. Text-only, mais nouveau champion. Aujourd'hui le même hardware tourne Gemma 4 26B à 250 t/s — avec vision et tool calling. Le déclencheur : vLLM v0.21 a discrètement mergé le drafter MTP officiel de Google pour Gemma 4. Plus de cycle bug 5-fast/4-slow du DFlash. Plus de fallback no-spec à 135 t/s. Juste la vitesse maximum, plus les images.