标签：overlap

深入底层：如何通过计算与通信的 Overlap 掩盖 All-Reduce 产生的同步等待开销？

2026-02-14andy阅读(46)评论(0)

在同步分布式训练（如 PyTorch DDP）中，最主要的性能瓶颈之一是梯度同步操作 All-Reduce 导致的等待时间。当一台 GPU 完成反向传播并计算出所有梯度后，它必须等待所有其他 GPU 完成相同的操作，然后才能进行梯度聚合。利...