标签：不均

MOE 混合专家模型 Infra 挑战：如何处理路由（Router）带来的负载不均与显存开销

2026-02-10andy阅读(63)评论(0)

混合专家模型（Mixture-of-Experts, MoE）通过稀疏激活实现模型扩展，显著提升了参数量和训练效率。然而，其核心组件——路由器（Router）——在将输入Token分配给不同专家（Expert）时，带来了两大基础设施挑战：专...

2026-02-07andy阅读(55)评论(0)

在多 GPU 分布式训练（例如使用 PyTorch DDP 或 TensorFlow MirroredStrategy）中，显存（VRAM）使用不均衡是一个常见但棘手的问题。当您在 8 块 A100 上遇到此问题时，通常意味着某个或某些进程...