为什么在万兆网环境下,Data Parallel 的扩展效率会随 GPU 数量增加而剧烈抖动?
在分布式深度学习训练中,尤其是在使用数据并行(Data Parallel,如PyTorch DDP或Horovod)时,我们常常追求训练速度与GPU数量的线性扩展。但在使用标准万兆以太网(10GbE)作为节点间通信主干时,一旦GPU数量增加...
在分布式深度学习训练中,尤其是在使用数据并行(Data Parallel,如PyTorch DDP或Horovod)时,我们常常追求训练速度与GPU数量的线性扩展。但在使用标准万兆以太网(10GbE)作为节点间通信主干时,一旦GPU数量增加...