标签：代价

梯度累加（Gradient Accumulation）的代价：如何在显存受限时模拟大 Batch

2026-02-01andy阅读(143)评论(0)

在深度学习的训练过程中，Batch Size（批次大小）是一个至关重要的超参数。通常情况下，更大的 Batch Size 能够提供更准确的梯度估计，有助于模型收敛到更优的解。然而，当模型参数量巨大或输入数据维度极高时，有限的显存（VRAM）...