标签：PagedAttention

SGLang vs vLLM：大模型推理引擎架构设计与性能深度对比

2026-07-17andy阅读(30)

引言：推理引擎之争的底层逻辑随着大语言模型（LLM）在各行各业的落地加速，模型推理效率已成为制约规模化部署的核心瓶颈。在众多开源推理框架中，vLLM 和 SGLang 是最受关注的两个项目。vLLM 由 UC Berkeley 的 Sky...

2026-07-02andy阅读(66)

引言：大模型推理的瓶颈与vLLM的诞生随着大语言模型（LLM）参数规模从数十亿飙升到数千亿，推理部署成为制约落地的核心瓶颈。传统的推理框架（如 Hugging Face Transformers 的 naive 实现）在推理时面临两大痛点...