Tag · paged-attention
Tous les posts taggés "paged-attention".
Un peer user d'Olares One a partagé un patch Discord pour restaurer la vision sur la chart gemma426ba4bone. 24 heures plus tard, j'avais shippé un variant vLLM à 135 t/s à 128K de contexte — et le même user l'a validé en production. L'histoire d'une boucle community-driven, quatre configs llama.cpp benchées en parallèle, et le moment où turbo3 KV a cessé d'être la réponse.