排查实录:当 NCCL 通信出现 Time Out 时,你该如何确定是光模块坏了还是拓扑配置错了?
当我们在大规模 GPU 集群上进行分布式训练时,NCCL (NVIDIA Collective Communications Library) 扮演着核心的通信角色。如果训练过程频繁出现 NCCL Time Out 错误,这通常意味着节点间...
当我们在大规模 GPU 集群上进行分布式训练时,NCCL (NVIDIA Collective Communications Library) 扮演着核心的通信角色。如果训练过程频繁出现 NCCL Time Out 错误,这通常意味着节点间...
为什么 Faiss 会 OOM 或崩溃? 在生产环境中处理数千万乃至数十亿的向量时,Faiss 索引的内存消耗是一个核心挑战。导致服务器 OOM (Out of Memory) 或索引崩溃的主要原因通常有两个: 索引结构选择不当 (Inde...