面试官:如果训练中途发生了一次比特翻转(Bit-flip),你的 Checkpoint 还能救回来吗?
在深度学习模型训练过程中,Checkpoint(检查点)是至关重要的,它记录了模型权重、优化器状态、学习率调度器状态等,用于断点续训。面试官提出的“比特翻转”问题,指的是硬件故障(如内存、磁盘或传输中的电磁干扰)导致数据中的单个或多个位发生...
在深度学习模型训练过程中,Checkpoint(检查点)是至关重要的,它记录了模型权重、优化器状态、学习率调度器状态等,用于断点续训。面试官提出的“比特翻转”问题,指的是硬件故障(如内存、磁盘或传输中的电磁干扰)导致数据中的单个或多个位发生...
梯度检查点(Checkpointing Recomputation):用时间换空间的终极手段 随着深度学习模型规模的爆炸式增长,特别是大型语言模型(LLMs)的出现,训练过程中 GPU 显存不足(OOM, Out Of Memory)成为了...
在训练深度学习模型,尤其是如Transformer这类拥有数百甚至数千层的超大模型时,GPU显存往往成为瓶颈。标准的反向传播算法需要存储前向传播中每层的所有中间激活值(Activations),以便在计算梯度时使用,这消耗了大量的显存。当模...