标签：借调

解构 vLLM 的物理内存映射：当 Prompt 长度超过预设 Block 时，底层是如何动态借调空间的？

2026-02-15andy阅读(116)评论(0)

vLLM（Virtual Large Language Model）框架凭借其创新的内存管理技术 PagedAttention，极大地提升了LLM推理的吞吐量和效率。PagedAttention借鉴了传统操作系统中的虚拟内存和分页思想，核心...

2026-02-11andy阅读(103)评论(0)

简介：软件定义AI算力与显存池化在现代AI训练和推理集群中，GPU显存（VRAM）是核心且昂贵的资源。传统的资源分配方式是静态的，即一个任务独占一台服务器上的一个或多个GPU及其全部显存。这种模式常导致两个主要问题：资源碎片化和低利用率。...