监控告警怎么做?基于 Prometheus 的 GPU 显存增长与功率异常实时监测方案
在深度学习和高性能计算环境中,GPU是核心资源。显存泄漏(Memory Leak)或功率过载不仅会影响当前任务的稳定性,还可能导致硬件损耗。本指南将介绍如何结合 Prometheus、Alertmanager 和 dcgm-exporter...
在深度学习和高性能计算环境中,GPU是核心资源。显存泄漏(Memory Leak)或功率过载不仅会影响当前任务的稳定性,还可能导致硬件损耗。本指南将介绍如何结合 Prometheus、Alertmanager 和 dcgm-exporter...
在训练万亿参数(TB级权重)的大型语言模型(LLM)时,断点续训(Checkpointing)是至关重要的一环。然而,传统的PyTorch保存方式通常需要Rank 0节点聚合所有权重,这会导致严重的I/O瓶颈和内存溢出,使得保存一次权重可能...
在分布式 AI 训练任务中(例如 PyTorch Distributed 或 Horovod),一个任务通常包含多个相互依赖的 Pods(例如一个 Master 和 N 个 Worker)。这些 Pods 必须同时启动才能开始工作。如果 K...
在自动驾驶和智能座舱系统中,高性能车载计算平台通常依赖多个NPU(神经网络处理器)进行并行计算。这些NPU之间高效的数据交换是实现分布式训练和推理加速的关键,而集体通信库(Collective Communication Libraries...
在大型分布式训练集群中,硬件故障是不可避免的。当一台机器的网卡(NIC)突然损坏时,这意味着该节点将无法参与通信,这对于依赖高效同步的分布式训练(如PyTorch DDP或TensorFlow MirroredStrategy)来说是致命的...
在分布式训练,尤其是深度学习模型的分布式训练中,高效的节点间通信是性能的关键。All-Reduce、All-Gather 和 Reduce-Scatter 是最核心的三种集体通信原语(Collective Communication Pri...
如何利用RDMA/RoCE v2实现大模型训练的极致加速:深度解析‘零拷贝’网络通信 随着AI模型规模(如LLM)的爆炸式增长,分布式训练已成为常态。然而,传统的网络通信方式(基于TCP/IP)在多GPU节点间传输海量梯度和参数时,会造成严...
大型语言模型(LLM)的推理过程通常分为两个截然不同的计算阶段:预填充(Pre-fill)和生成(Decode)。这两个阶段的计算和资源需求特性存在巨大差异,如果在同一块GPU上混合执行,往往会导致资源利用率低下,尤其是在高并发的服务环境中...
大规模语言模型(LLM)的推理性能是部署成功的关键。在推理过程中,模型通常经历两个截然不同的阶段:Prefill(预填充/上下文处理)和Decode(解码/生成)。理解这两个阶段的资源需求和冲突,是优化吞吐量(Throughput)和首字节...
FlashAttention v1/v2 演进史:它是如何通过减少显存读写让速度飞起来的 自Transformer架构诞生以来,Attention机制一直是其核心但也是性能瓶颈所在。当序列长度 $N$ 增大时,标准Attention的计算复...