为AIGC模型训练(如Stable Diffusion)定制高性能Infra。
引言:AIGC训练中的“内存墙”挑战 Stable Diffusion(SD)这类大型生成模型,尤其是在高分辨率图像(例如512×512或更高)上进行微调或预训练时,对GPU显存(VRAM)的需求极其苛刻。对于拥有80GB显存的N...
引言:AIGC训练中的“内存墙”挑战 Stable Diffusion(SD)这类大型生成模型,尤其是在高分辨率图像(例如512×512或更高)上进行微调或预训练时,对GPU显存(VRAM)的需求极其苛刻。对于拥有80GB显存的N...
在万卡(10000+ GPU)规模的AI集群中进行大模型训练时,CheckPoint(检查点)的可靠性和速度是决定训练效率的关键。一个TB级甚至PB级的检查点,如果采用传统同步方式存储,可能导致训练停顿数小时,极大增加了恢复时间目标(RTO...
如何配置PyTorch FSDP实现千亿级模型的高效并行训练及内存优化 在训练千亿级(Trillion-Scale)参数的超大规模语言模型(LLMs)时,单卡GPU的内存限制是最大的瓶颈。PyTorch FSDP (Fully Sharde...
抢占式实例(Spot Instance)是云服务商提供的一种基于竞价模式的计算资源,通常价格比按需实例(On-Demand)低50%到90%。对于需要数周甚至数月训练周期的大型语言模型(LLM)而言,Spot Instance是降低训练成本...
在AI模型部署和训练的场景中,GPU利用率往往是衡量基础设施效率的核心指标。很多用户在使用PyTorch进行分布式训练(DDP)时,发现GPU的SMs(流式多处理器)利用率偏低,这通常意味着模型训练并非计算密集型,而是受到了I/O或通信的限...