标签：训练

为AIGC模型训练（如Stable Diffusion）定制高性能Infra。

2025-12-02andy阅读(12)评论(0)

引言：AIGC训练中的“内存墙”挑战 Stable Diffusion（SD）这类大型生成模型，尤其是在高分辨率图像（例如512×512或更高）上进行微调或预训练时，对GPU显存（VRAM）的需求极其苛刻。对于拥有80GB显存的N...

2025-11-19andy阅读(43)评论(0)

在万卡（10000+ GPU）规模的AI集群中进行大模型训练时，CheckPoint（检查点）的可靠性和速度是决定训练效率的关键。一个TB级甚至PB级的检查点，如果采用传统同步方式存储，可能导致训练停顿数小时，极大增加了恢复时间目标（RTO...

2025-11-17andy阅读(58)评论(0)

如何配置PyTorch FSDP实现千亿级模型的高效并行训练及内存优化在训练千亿级（Trillion-Scale）参数的超大规模语言模型（LLMs）时，单卡GPU的内存限制是最大的瓶颈。PyTorch FSDP (Fully Sharde...

2025-11-10andy阅读(84)评论(0)

抢占式实例（Spot Instance）是云服务商提供的一种基于竞价模式的计算资源，通常价格比按需实例（On-Demand）低50%到90%。对于需要数周甚至数月训练周期的大型语言模型（LLM）而言，Spot Instance是降低训练成本...

2025-11-08andy阅读(67)评论(0)

在AI模型部署和训练的场景中，GPU利用率往往是衡量基础设施效率的核心指标。很多用户在使用PyTorch进行分布式训练（DDP）时，发现GPU的SMs（流式多处理器）利用率偏低，这通常意味着模型训练并非计算密集型，而是受到了I/O或通信的限...