一道算力估算题:已知 A100 的内存带宽与算力,请计算矩阵乘法(GEMM)在何种规模下会达到算力峰值?
在高性能计算(HPC)领域,理解何时工作负载受限于计算能力(Compute Bound)或内存带宽(Memory Bound)至关重要。这通常通过“屋顶线模型”(Roofline Model)来分析。 对于矩阵乘法(GEMM)任务,我们希望...
在高性能计算(HPC)领域,理解何时工作负载受限于计算能力(Compute Bound)或内存带宽(Memory Bound)至关重要。这通常通过“屋顶线模型”(Roofline Model)来分析。 对于矩阵乘法(GEMM)任务,我们希望...
详解神经网络权重的聚类压缩算法:如何利用 Codebook 降低移动端内存带宽压力 在移动端和边缘设备上部署深度学习模型时,模型体积和推理时的内存带宽往往是最大的性能瓶颈。传统的量化(如INT8)可以压缩数据,但聚类压缩提供了一种更为灵活且...
在深度学习,尤其是大型语言模型(LLM)的面试中,这是一个非常常见且重要的问题。理解计算瓶颈是优化模型部署和推理速度的关键。对于基于 Transformer 架构的大模型,在推理(Inference)阶段,计算瓶颈确实往往落在存储带宽(Me...
在构建高性能AI训练服务器,尤其是涉及大型语言模型(LLM)或多模态模型的训练时,GPU之间的通信带宽往往成为整体性能的瓶颈。忽视互联技术(Interconnect)的选择,是许多开发者在组装硬件时常犯的“大坑”。本文将深入比较NVLink...
高通骁龙8295(通常集成在Snapdragon Cockpit平台)是为高性能AI计算设计的SoC,尤其擅长处理大模型(LLMs, Vison Transformers)推理任务。其核心优势在于集成的Hexagon NPU/DSP,但要充...
在现代人工智能,特别是大型语言模型(LLM)的训练中,GPU的核心计算能力(TFLOPS)固然重要,但常常被忽视的瓶颈是数据移动的速度。本文将详细解释GPU中使用的HBM(High Bandwidth Memory,高带宽显存)技术,以及为...
很多个人站长在使用 VPS 或公有云虚拟机时,都会遇到一个令人困惑的问题:服务商宣传机器拥有“100Mbps 端口”或“峰值 100M 带宽”,但实际使用下载或上传速度却远低于预期,比如只有 20Mbps。这并非主机商在故意欺骗,而是因为你...
大规模深度学习(LLM、视觉模型)的训练已经从单卡扩展到数千张GPU的集群。在这一规模下,网络通信而非计算速度,往往成为系统性能的决定性瓶颈。选择正确的网络拓扑对于优化All-Reduce等集体通信操作至关重要。 本文将深入比较两种最流行的...