Checkpoint 重计算技术:用时间换空间,解决大模型训练 OOM 的最后一根稻草
梯度检查点(Checkpointing Recomputation):用时间换空间的终极手段 随着深度学习模型规模的爆炸式增长,特别是大型语言模型(LLMs)的出现,训练过程中 GPU 显存不足(OOM, Out Of Memory)成为了...
梯度检查点(Checkpointing Recomputation):用时间换空间的终极手段 随着深度学习模型规模的爆炸式增长,特别是大型语言模型(LLMs)的出现,训练过程中 GPU 显存不足(OOM, Out Of Memory)成为了...
Docker 作为容器技术的基石,解决了应用打包和环境隔离的难题。然而,当应用进入生产环境,对稳定性、伸缩性和可管理性提出要求时,仅靠 Docker CLI 或 Docker Compose 就显得力不从心。这就是为什么 Docker 之后...