为什么大模型推理的 Prefill 阶段是算力受限,而 Decode 阶段却是访存受限?
在大型语言模型(LLM)的推理过程中,通常分为两个关键阶段:Prefill(预填充/处理Prompt)阶段和Decode(解码/自回归生成)阶段。这两个阶段对硬件资源的需求截然不同,理解它们的瓶颈对于优化推理性能至关重要。 1. 概念定义:...
在大型语言模型(LLM)的推理过程中,通常分为两个关键阶段:Prefill(预填充/处理Prompt)阶段和Decode(解码/自回归生成)阶段。这两个阶段对硬件资源的需求截然不同,理解它们的瓶颈对于优化推理性能至关重要。 1. 概念定义:...