标签：checkpoint

面试官：如果训练中途发生了一次比特翻转（Bit-flip），你的 Checkpoint 还能救回来吗？

2026-02-14andy阅读(101)评论(0)

在深度学习模型训练过程中，Checkpoint（检查点）是至关重要的，它记录了模型权重、优化器状态、学习率调度器状态等，用于断点续训。面试官提出的“比特翻转”问题，指的是硬件故障（如内存、磁盘或传输中的电磁干扰）导致数据中的单个或多个位发生...

2026-02-02andy阅读(143)评论(0)

梯度检查点（Checkpointing Recomputation）：用时间换空间的终极手段随着深度学习模型规模的爆炸式增长，特别是大型语言模型（LLMs）的出现，训练过程中 GPU 显存不足（OOM, Out Of Memory）成为了...

2026-01-30andy阅读(144)评论(0)

在训练深度学习模型，尤其是如Transformer这类拥有数百甚至数千层的超大模型时，GPU显存往往成为瓶颈。标准的反向传播算法需要存储前向传播中每层的所有中间激活值（Activations），以便在计算梯度时使用，这消耗了大量的显存。当模...