标签：集合

如何解决国产 AI 芯片下的集合通信瓶颈：深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异

2026-02-26andy阅读(134)评论(0)

如何解决国产 AI 芯片下的集合通信瓶颈：深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异在分布式深度学习中，集合通信（Collective Communication）是决定训练效率的关键。在 NVIDIA ...

2026-02-08andy阅读(180)评论(0)

分布式训练是加速大型模型训练的关键技术。在多GPU或多机环境中，梯度同步（Gradient Synchronization）的效率决定了整体训练的性能上限。在TensorFlow和PyTorch等框架中，NVIDIA的集合通信库（NCCL）...