标签：借用

PageAttention 详解：vLLM 是如何借用操作系统的分页思想解决显存碎片的

2026-02-03andy阅读(161)评论(0)

大规模语言模型（LLM）在推理阶段面临的一个核心挑战是如何高效管理巨大的 Key-Value Cache（KV Cache）。KV Cache 存储了Attention机制中K(Key)和V(Value)矩阵的历史记录，对于长序列推理至关重...