标签：推理

如何为Transformer模型配置KV Cache，大幅减少推理延迟？

2025-11-20andy阅读(2)评论(0)

引言：为什么KV Cache是LLM推理的生命线？对于自回归（Autoregressive）的Transformer模型，特别是大型语言模型（LLMs），推理延迟主要发生在解码阶段。每生成一个新的Token，模型必须回顾所有历史Token...