标签：死锁

详解 MultiWorkerMirroredStrategy：在多机多卡环境下如何处理集群通信死锁

2026-02-08andy阅读(46)评论(0)

MultiWorkerMirroredStrategy (MWMS) 是 TensorFlow 2.x 中用于多机多卡同步训练的首选策略。它通过在每个 Worker 的 GPU 上复制模型权重，并在梯度计算后使用 All-reduce 操作...

2026-02-01andy阅读(60)评论(0)

在高性能计算和深度学习领域，分布式训练（如PyTorch DDP）是加速模型收敛的关键手段。然而，分布式环境的复杂性，尤其是涉及多机或多GPU通信时，经常会导致令人头疼的死锁或连接超时问题。这些问题往往源于网络配置错误、防火墙限制或进程间同...

2026-02-01andy阅读(70)评论(0)

在Python中，当我们使用multiprocessing模块实现并发时，与多线程（threading）不同，子进程拥有独立的内存空间。这意味着父进程中定义的普通变量（如列表、字典、普通对象实例）不会自动且安全地在子进程间共享。如果尝试直接...