手绘 Megatron-LM 的 3D 并行拓扑图:请指出流水线并行与张量并行的切分边界在哪里?
Megatron-LM是NVIDIA开发的一个用于训练超大规模Transformer模型的框架。它通过组合三种并行技术(数据并行DP、张量并行TP、流水线并行PP)实现了高效的3D并行策略。对于希望配置和优化LLM训练的用户来说,理解TP和...
Megatron-LM是NVIDIA开发的一个用于训练超大规模Transformer模型的框架。它通过组合三种并行技术(数据并行DP、张量并行TP、流水线并行PP)实现了高效的3D并行策略。对于希望配置和优化LLM训练的用户来说,理解TP和...
在分布式深度学习训练中,尤其是在使用数据并行(Data Parallel,如PyTorch DDP或Horovod)时,我们常常追求训练速度与GPU数量的线性扩展。但在使用标准万兆以太网(10GbE)作为节点间通信主干时,一旦GPU数量增加...
作为AI基础设施(AI Infra)工程师,我们面临的核心挑战是如何在PyTorch、TensorFlow、JAX等算法框架日新月异、依赖库爆炸式增长的背景下,维护一套稳定、高效且“长青”的底层平台。核心思路是:将快速变化的算法层与相对稳定...
在传统的操作系统(OS)中,计算的最小单位是进程(Process)或线程(Thread)。应用程序通过调用系统API,由进程负责资源的分配(CPU时间片、内存空间、I/O访问)。这种模型在处理通用计算任务时非常高效,但面对现代AI和大数据的...
循环分块(Loop Tiling),也称为循环阻塞(Loop Blocking),是高性能计算中优化内存局部性(Temporal and Spatial Locality)的关键技术。通过将大型计算任务分解为可放入缓存(Cache)的小块,...
在高性能计算和深度学习推理领域,我们经常遇到这样的瓶颈:模型计算量不大,但由于由大量细小、串联的计算操作(Kernel)组成,导致整体性能不佳。瓶颈不在于GPU的计算能力(SMs),而在于CPU与驱动层(Driver)频繁通信以发射(Lau...
在当前的大模型(LLM)时代,NVIDIA H100 Tensor Core GPU 是训练和推理的主力核心。但一块 H100 GPU 本身并不能单独完成大规模训练任务。AI 服务器的设计精髓在于如何高效地将多块 H100 连接起来,形成一...
大规模语言模型(LLM)在生产环境中的部署面临两大核心挑战:极低的延迟和极高的吞吐量。NVIDIA TensorRT-LLM(TRT-LLM)通过优化LLM结构和GPU调度,极大地提升了推理性能。然而,要将其转化为高可用、可水平扩展的企业级...
处理百万级(1M)上下文长度是大型语言模型(LLM)面临的巨大挑战。传统的自注意力机制(Self-Attention)在序列长度$N$上具有$O(N^2)$的计算复杂度和内存占用,导致单个GPU无法容纳如此巨大的KV Cache和中间激活。...
简介:软件定义AI算力与显存池化 在现代AI训练和推理集群中,GPU显存(VRAM)是核心且昂贵的资源。传统的资源分配方式是静态的,即一个任务独占一台服务器上的一个或多个GPU及其全部显存。这种模式常导致两个主要问题:资源碎片化和低利用率。...