标签：block

解构 vLLM 的物理内存映射：当 Prompt 长度超过预设 Block 时，底层是如何动态借调空间的？

2026-02-15andy阅读(87)评论(0)

vLLM（Virtual Large Language Model）框架凭借其创新的内存管理技术 PagedAttention，极大地提升了LLM推理的吞吐量和效率。PagedAttention借鉴了传统操作系统中的虚拟内存和分页思想，核心...