Tag · nvidia
Tous les posts taggés "nvidia".
Le support MTP a fusionné dans llama.cpp master le 16 mai. Cinq jours plus tard, trois PRs de suivi ont silencieusement changé le comportement de MTP — notamment la valeur par défaut de spec-draft-n-max qui passe de 16 à 3. Sur Olares One (RTX 5090M sm_120), ce changement combiné à la réécriture backend-sampling de NVIDIA (#23287) a fait passer l'acceptance des drafts MTP de 64 % à 86,7 % sur Qwen3.6 27B. +22 points. Personne n'en parle.