标签：却是

为什么大模型推理的 Prefill 阶段是算力受限，而 Decode 阶段却是访存受限？

2026-02-14andy阅读(105)评论(0)

在大型语言模型（LLM）的推理过程中，通常分为两个关键阶段：Prefill（预填充/处理Prompt）阶段和Decode（解码/自回归生成）阶段。这两个阶段对硬件资源的需求截然不同，理解它们的瓶颈对于优化推理性能至关重要。 1. 概念定义：...