标签：parallel

为什么在万兆网环境下，Data Parallel 的扩展效率会随 GPU 数量增加而剧烈抖动？

2026-02-13andy阅读(119)评论(0)

在分布式深度学习训练中，尤其是在使用数据并行（Data Parallel，如PyTorch DDP或Horovod）时，我们常常追求训练速度与GPU数量的线性扩展。但在使用标准万兆以太网（10GbE）作为节点间通信主干时，一旦GPU数量增加...

2026-02-05andy阅读(165)评论(0)

在深度学习模型的训练过程中，数据读取和预处理（即I/O操作）往往是制约GPU或NPU利用率的瓶颈。TensorFlow的tf.data.Dataset API是解决这一问题的核心工具。然而，如果使用不当，即使是高效的API也会拖慢整体训练速...