梯度累加(Gradient Accumulation)的代价:如何在显存受限时模拟大 Batch
在深度学习的训练过程中,Batch Size(批次大小)是一个至关重要的超参数。通常情况下,更大的 Batch Size 能够提供更准确的梯度估计,有助于模型收敛到更优的解。然而,当模型参数量巨大或输入数据维度极高时,有限的显存(VRAM)...
在深度学习的训练过程中,Batch Size(批次大小)是一个至关重要的超参数。通常情况下,更大的 Batch Size 能够提供更准确的梯度估计,有助于模型收敛到更优的解。然而,当模型参数量巨大或输入数据维度极高时,有限的显存(VRAM)...