频率 | 汤不热吧

详解计算图算子融合优化：如何将多个卷积与激活函数合并以减少显存读写频率

2026-02-13andy阅读(86)评论(0)

在AI模型的推理加速领域，显存带宽往往是性能瓶颈的关键。模型计算图中的许多操作，如卷积（Conv）和随后的激活函数（ReLU），虽然逻辑上是独立的步骤，但在执行时，需要将中间结果从计算单元（如GPU或NPU）写入显存，再由下一个操作读取。这...