标签：allreduce

TensorFlow 2.x分布式训练实战：从MirroredStrategy到MultiWorkerMirroredStrategy

2026-06-24andy阅读(104)

引言：为什么需要分布式训练？随着深度学习模型的规模不断增长，单张GPU卡已经难以满足大多数实际生产场景的训练需求。从BERT（3.4亿参数）到GPT-3（1750亿参数），再到LLaMA系列和最近流行的DeepSeek、Qwen等大语言模...

2026-02-26andy阅读(476)评论(0)

如何解决国产 AI 芯片下的集合通信瓶颈：深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异在分布式深度学习中，集合通信（Collective Communication）是决定训练效率的关键。在 NVIDIA ...

2026-02-08andy阅读(393)评论(0)

分布式训练是加速大型模型训练的关键技术。在多GPU或多机环境中，梯度同步（Gradient Synchronization）的效率决定了整体训练的性能上限。在TensorFlow和PyTorch等框架中，NVIDIA的集合通信库（NCCL）...

2026-02-01andy阅读(574)评论(0)

在现代深度学习中，模型和数据集的规模爆炸式增长，使得分布式训练成为常态。PyTorch 的 torch.distributed 包提供了一系列高效的通信原语（Collective Operations），这些原语是实现数据并行（DDP）和模...