标签：loss

如果训练 Loss 突然变成 NaN，作为 Infra 工程师，你该提供哪些底层数据辅助？

2026-02-09andy阅读(126)评论(0)

深度学习模型训练过程中，如果发现训练损失（Loss）突然飙升并变为NaN（Not a Number），通常标志着梯度爆炸或数值溢出。虽然直接的数值问题需要ML工程师从模型结构、学习率、或数据预处理层面解决，但作为Infra（基础设施）工程师...

2026-02-01andy阅读(228)评论(0)

混合精度训练（Mixed Precision Training）是现代深度学习模型训练中常用的优化手段。通过将模型的大部分计算转移到半精度浮点数（FP16）进行，而保持关键部分（如权重更新）使用全精度浮点数（FP32），可以显著提高训练速度...