如何为Transformer模型配置KV Cache,大幅减少推理延迟?
引言:为什么KV Cache是LLM推理的生命线? 对于自回归(Autoregressive)的Transformer模型,特别是大型语言模型(LLMs),推理延迟主要发生在解码阶段。每生成一个新的Token,模型必须回顾所有历史Token...
引言:为什么KV Cache是LLM推理的生命线? 对于自回归(Autoregressive)的Transformer模型,特别是大型语言模型(LLMs),推理延迟主要发生在解码阶段。每生成一个新的Token,模型必须回顾所有历史Token...