标签：gradient

怎样利用 tf.custom_gradient 绕过算子不可导限制实现自定义反向传播逻辑

2026-02-07andy阅读(41)评论(0)

在深度学习模型的训练过程中，我们通常依赖TensorFlow或PyTorch等框架自动计算梯度。然而，某些操作，例如四舍五入（tf.round）、取整（tf.floor）、或者某些复杂的硬件相关的自定义操作，它们在数学上几乎处处不可导，会导...

2026-02-01andy阅读(71)评论(0)

在深度学习的训练过程中，Batch Size（批次大小）是一个至关重要的超参数。通常情况下，更大的 Batch Size 能够提供更准确的梯度估计，有助于模型收敛到更优的解。然而，当模型参数量巨大或输入数据维度极高时，有限的显存（VRAM）...