Checkpoint 重计算技术:用时间换空间,解决大模型训练 OOM 的最后一根稻草
梯度检查点(Checkpointing Recomputation):用时间换空间的终极手段 随着深度学习模型规模的爆炸式增长,特别是大型语言模型(LLMs)的出现,训练过程中 GPU 显存不足(OOM, Out Of Memory)成为了...
梯度检查点(Checkpointing Recomputation):用时间换空间的终极手段 随着深度学习模型规模的爆炸式增长,特别是大型语言模型(LLMs)的出现,训练过程中 GPU 显存不足(OOM, Out Of Memory)成为了...