标签：拓扑

怎样通过 MUSA 集群进行大模型分布式训练：详解多卡互联下的物理拓扑与带宽优化

2026-02-25andy阅读(111)评论(0)

如何通过 MUSA 集群进行大模型分布式训练：详解多卡互联与带宽优化随着国产算力的崛起，摩尔线程（Moore Threads）的 MUSA 架构已成为大模型训练的重要选择。在多卡集群环境下，如何充分利用 MT-Link 互联技术并优化通信...

2026-02-17andy阅读(137)评论(0)

当我们在大规模 GPU 集群上进行分布式训练时，NCCL (NVIDIA Collective Communications Library) 扮演着核心的通信角色。如果训练过程频繁出现 NCCL Time Out 错误，这通常意味着节点间...

2026-02-09andy阅读(159)评论(0)

在大规模数据中心集群中，网络拓扑通常采用多级架构（如Fat-Tree或Spine-Leaf），跨越不同交换机（尤其是跨越核心交换机）的通信，相比同一交换机下的通信，往往具有更高的延迟和更大的带宽开销。对于需要高频、低延迟通信的应用（如分布式...