PD 分离架构:将 LLM 的预填充与生成阶段放在不同显卡上跑的收益分析
大型语言模型(LLM)的推理过程通常分为两个截然不同的计算阶段:预填充(Pre-fill)和生成(Decode)。这两个阶段的计算和资源需求特性存在巨大差异,如果在同一块GPU上混合执行,往往会导致资源利用率低下,尤其是在高并发的服务环境中...
大型语言模型(LLM)的推理过程通常分为两个截然不同的计算阶段:预填充(Pre-fill)和生成(Decode)。这两个阶段的计算和资源需求特性存在巨大差异,如果在同一块GPU上混合执行,往往会导致资源利用率低下,尤其是在高并发的服务环境中...