标签：检查点

如何使用 torch.utils.checkpoint 梯度检查点技术以计算换空间训练超大模型

2026-01-30andy阅读(81)评论(0)

在训练深度学习模型，尤其是如Transformer这类拥有数百甚至数千层的超大模型时，GPU显存往往成为瓶颈。标准的反向传播算法需要存储前向传播中每层的所有中间激活值（Activations），以便在计算梯度时使用，这消耗了大量的显存。当模...

2025-11-19andy阅读(187)评论(0)

在万卡（10000+ GPU）规模的AI集群中进行大模型训练时，CheckPoint（检查点）的可靠性和速度是决定训练效率的关键。一个TB级甚至PB级的检查点，如果采用传统同步方式存储，可能导致训练停顿数小时，极大增加了恢复时间目标（RTO...