如何利用昇腾算子融合技术优化大模型推理延迟:从图优化层减少 HBM 与计算单元交互
1. 为什么大模型推理会受限于 HBM? 在大模型(LLM)推理过程中,Transformer 架构中存在大量的逐元素(Element-wise)操作,如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中,每个算子都需...
1. 为什么大模型推理会受限于 HBM? 在大模型(LLM)推理过程中,Transformer 架构中存在大量的逐元素(Element-wise)操作,如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中,每个算子都需...
在现代人工智能,特别是大型语言模型(LLM)的训练中,GPU的核心计算能力(TFLOPS)固然重要,但常常被忽视的瓶颈是数据移动的速度。本文将详细解释GPU中使用的HBM(High Bandwidth Memory,高带宽显存)技术,以及为...