标签：vllm

如何利用vLLM或FasterTransformer加速LLM的低延迟推理部署？

2026-03-04andy阅读(60)评论(0)

如何利用 vLLM 实现大语言模型的高吞吐与低延迟推理部署在 LLM（大语言模型）的生产级部署中，推理延迟和吞吐量是衡量系统性能的核心指标。传统的推理框架由于 KV Cache 管理效率低下，往往面临内存碎片化严重、显存利用率低等挑战。v...

2026-02-15andy阅读(100)评论(0)

vLLM（Virtual Large Language Model）框架凭借其创新的内存管理技术 PagedAttention，极大地提升了LLM推理的吞吐量和效率。PagedAttention借鉴了传统操作系统中的虚拟内存和分页思想，核心...

2026-02-03andy阅读(100)评论(0)

大规模语言模型（LLM）在推理阶段面临的一个核心挑战是如何高效管理巨大的 Key-Value Cache（KV Cache）。KV Cache 存储了Attention机制中K(Key)和V(Value)矩阵的历史记录，对于长序列推理至关重...

2025-11-26andy阅读(326)评论(0)

vLLM因其出色的GPU吞吐量而闻名，但在某些场景下（如本地开发、功能测试或资源受限的环境），用户可能需要在纯CPU上运行vLLM服务。虽然性能远不如GPU，但通过正确的配置，我们依然可以利用vLLM的简洁API和高效加载机制在CPU上启动...