标签：Medusa

Speculative Decoding（推测解码）深度解析：用「以小博大」的思路破解大模型推理延迟瓶颈

2026-06-23andy阅读(131)

引言：大模型推理的”慢”到底慢在哪里？如果你在生产环境中部署过 GPT 级别的自回归语言模型，一定对 Token 生成速度之慢感同身受：即使在 A100/H100 这类顶级 GPU 上，大模型的 Decode 阶段...