标签：从图

如何利用昇腾算子融合技术优化大模型推理延迟：从图优化层减少 HBM 与计算单元交互

2026-02-24andy阅读(349)评论(0)

1. 为什么大模型推理会受限于 HBM？在大模型（LLM）推理过程中，Transformer 架构中存在大量的逐元素（Element-wise）操作，如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中，每个算子都需...