标签：放在

PD 分离架构：将 LLM 的预填充与生成阶段放在不同显卡上跑的收益分析

2026-02-04andy阅读(4)评论(0)

大型语言模型（LLM）的推理过程通常分为两个截然不同的计算阶段：预填充（Pre-fill）和生成（Decode）。这两个阶段的计算和资源需求特性存在巨大差异，如果在同一块GPU上混合执行，往往会导致资源利用率低下，尤其是在高并发的服务环境中...