AI 集群的功耗挑战:如何通过动态调频(DVFS)在性能不掉队下节省电费
AI 集群的功耗挑战与 DVFS 简介 随着AI模型规模的爆炸式增长,支持这些模型的计算集群(无论是使用高性能CPU还是GPU)消耗的能源也水涨船高。高功耗不仅意味着高昂的电费,还会带来巨大的散热压力和潜在的硬件故障风险。在许多情况下,集群...
AI 集群的功耗挑战与 DVFS 简介 随着AI模型规模的爆炸式增长,支持这些模型的计算集群(无论是使用高性能CPU还是GPU)消耗的能源也水涨船高。高功耗不仅意味着高昂的电费,还会带来巨大的散热压力和潜在的硬件故障风险。在许多情况下,集群...
在脱离了熟悉的 CUDA 生态后,针对华为昇腾(Ascend)硬件进行深度学习模型推理性能优化,是许多开发者需要面临的挑战。昇腾平台的核心是 CANN(Compute Architecture for Neural Networks)工具链...
随着大模型的体积不断增长,如何在资源受限的端侧设备上高效运行这些模型成为了关键挑战。Apple M系列芯片,特别是最新的M3系列,通过其独特的统一内存架构(Unified Memory Architecture, UMA),为端侧大模型推理...
混合专家模型(Mixture-of-Experts, MoE)通过稀疏激活实现模型扩展,显著提升了参数量和训练效率。然而,其核心组件——路由器(Router)——在将输入Token分配给不同专家(Expert)时,带来了两大基础设施挑战:专...
存算一体架构(CIM):AI算力下一阶段的性能飞跃还是工程挑战? 随着AI模型(尤其是大语言模型和Transformer架构)的规模爆炸式增长,对算力的需求也急剧上升。然而,传统的冯·诺依曼(Von Neumann)架构正在成为限制AI加速...
在深度学习模型优化,尤其是移动端(如高通Adreno NPU、华为Ascend NPU等)部署时,我们通常认为1×1卷积(点卷积)由于其极少的浮点运算量(FLOPs)理应比3×3卷积快得多。然而,在实际的NPU性能测试中...
在大规模数据中心集群中,网络拓扑通常采用多级架构(如Fat-Tree或Spine-Leaf),跨越不同交换机(尤其是跨越核心交换机)的通信,相比同一交换机下的通信,往往具有更高的延迟和更大的带宽开销。对于需要高频、低延迟通信的应用(如分布式...
Megatron-LM是由NVIDIA开发的一套用于训练超大规模语言模型的框架。随着模型参数量突破万亿级别,任何单一的并行技术都难以高效地在有限的硬件资源上完成训练。Megatron-LM通过巧妙地结合三种主要的并行策略——张量并行(Ten...
深度学习模型训练过程中,如果发现训练损失(Loss)突然飙升并变为NaN(Not a Number),通常标志着梯度爆炸或数值溢出。虽然直接的数值问题需要ML工程师从模型结构、学习率、或数据预处理层面解决,但作为Infra(基础设施)工程师...
在现代深度学习分布式训练中,NVIDIA Collective Communications Library (NCCL) 是实现高性能 GPU 间通信的核心工具。NCCL 提供了多种通信算法来优化 All-Reduce、Broadcast...