MOE 混合专家模型 Infra 挑战:如何处理路由(Router)带来的负载不均与显存开销
混合专家模型(Mixture-of-Experts, MoE)通过稀疏激活实现模型扩展,显著提升了参数量和训练效率。然而,其核心组件——路由器(Router)——在将输入Token分配给不同专家(Expert)时,带来了两大基础设施挑战:专...
混合专家模型(Mixture-of-Experts, MoE)通过稀疏激活实现模型扩展,显著提升了参数量和训练效率。然而,其核心组件——路由器(Router)——在将输入Token分配给不同专家(Expert)时,带来了两大基础设施挑战:专...
在多 GPU 分布式训练(例如使用 PyTorch DDP 或 TensorFlow MirroredStrategy)中,显存(VRAM)使用不均衡是一个常见但棘手的问题。当您在 8 块 A100 上遇到此问题时,通常意味着某个或某些进程...