标签：hbm

如何利用昇腾算子融合技术优化大模型推理延迟：从图优化层减少 HBM 与计算单元交互

2026-02-24andy阅读(349)评论(0)

1. 为什么大模型推理会受限于 HBM？在大模型（LLM）推理过程中，Transformer 架构中存在大量的逐元素（Element-wise）操作，如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中，每个算子都需...

2026-01-29andy阅读(191)评论(0)

在现代人工智能，特别是大型语言模型（LLM）的训练中，GPU的核心计算能力（TFLOPS）固然重要，但常常被忽视的瓶颈是数据移动的速度。本文将详细解释GPU中使用的HBM（High Bandwidth Memory，高带宽显存）技术，以及为...