标签：rdma

RDMA 与 RoCE v2 深度解析：为什么大模型训练离不开这种“零拷贝”网络

2026-02-04andy阅读(162)评论(0)

如何利用RDMA/RoCE v2实现大模型训练的极致加速：深度解析‘零拷贝’网络通信随着AI模型规模（如LLM）的爆炸式增长，分布式训练已成为常态。然而，传统的网络通信方式（基于TCP/IP）在多GPU节点间传输海量梯度和参数时，会造成严...

2025-11-27andy阅读(278)评论(0)

在现代AI基础设施中，分布式训练（如使用PyTorch DDP和NCCL）对网络延迟和带宽的要求极高。RDMA（Remote Direct Memory Access）技术，无论是基于InfiniBand还是RoCEv2，都是实现高性能集群...