欢迎光临
我们一直在努力

AI Server 硬件设计:拆开一台 H100 服务器,带你认识里面的各种模块与连线

在当前的大模型(LLM)时代,NVIDIA H100 Tensor Core GPU 是训练和推理的主力核心。但一块 H100 GPU 本身并不能单独完成大规模训练任务。AI 服务器的设计精髓在于如何高效地将多块 H100 连接起来,形成一个统一的计算集群。

我们将以典型的 NVIDIA HGX H100 8-GPU 服务器(如 DGX H100 或类似 OEM 服务器)为例,深入剖析其内部的关键模块和互连技术。

1. 核心计算单元:H100 SXM 模块

传统的服务器通常使用 PCIe 接口的 GPU 卡(如 A100 PCIe)。但在顶级 AI 服务器中,H100 采用的是 SXM(Server Module) 封装。SXM 封装去除了外部的 PCIe 金手指和挡板,而是设计成直接插在特殊的基板(OAM Tray)上。这使得 GPU 可以更紧密地连接,并获得更高的供电和散热能力。

一个典型的 HGX H100 服务器通常包含 8 块 H100 SXM 模块,它们被集中放置在一个 HGX Baseboard 上。

2. GPU 互连的神经中枢:NVSwitch 和 NVLink

这是 H100 服务器与普通 PCIe 服务器最大的区别所在。为了消除 PCIe 带宽限制(PCIe Gen5 x16 峰值约 64 GB/s),NVIDIA 引入了 NVLink。

  • NVLink 4.0: H100 使用第四代 NVLink,单卡可提供高达 900 GB/s 的点对点带宽。
  • NVSwitch: 这是实现全连接的关键芯片。在 8-GPU 配置中,服务器通常内置多达 4 个 NVSwitch 芯片,它们形成一个完整的网格(Mesh),确保任意两块 H100 之间都能通过 NVSwitch 芯片以 900 GB/s 的全带宽直接通信。这是实现 GPUDirect P2P(Peer-to-Peer)通信的基础,对于大规模并行训练至关重要。

实操价值: 确保 NCCLMPI 通信时,数据不必经过 CPU 内存,直接在 GPU 显存之间传输,极大降低延迟。

3. 主机与 I/O:CPU 和 PCIe Gen5

虽然 GPU 负责主要计算,但 CPU 仍是系统的“大脑”,负责启动、数据预处理和管理外部 I/O。

  • CPU: 通常使用双路高核心数的 CPU(如 AMD EPYC 或 Intel Xeon Scalable)。
  • 连接方式: CPU 通过大量的 PCIe Gen5 通道连接到 HGX Baseboard。CPU 需要通过 PCIe Gen5 接口来初始化和控制 NVSwitch 芯片,并管理所有外部设备(如网卡和存储)。
  • 内存: 巨大的系统内存(TB 级别),用于操作系统、数据缓存以及 CPU-GPU 之间的数据暂存。

4. 外部扩展:高速 InfiniBand 网络

当我们需要训练比 8 块 H100 芯片更大规模的模型时(例如,使用 256 块 H100),多台服务器需要通过网络进行通信。

  • 网卡: 采用 NVIDIA ConnectX-7 或更高版本的 NIC。
  • 技术: 使用 InfiniBand NDR (400Gb/s) 或高速以太网,支持 RDMA (Remote Direct Memory Access) 技术。

RDMA 允许一台服务器上的 GPU 直接读写另一台服务器上的 GPU 显存,跳过两台机器的 CPU 和操作系统的开销。这保证了多节点训练时的通信延迟和带宽能够满足 M P/D P(模型并行/数据并行)的需求。

5. 模块连接概览 (概念架构图)

以下简化的架构图展示了 H100 服务器内部的关键连接路径:

总结来说,H100 服务器的设计精髓在于通过 NVLink 和 NVSwitch 实现了 GPU 内部的超高带宽互连,并通过 InfiniBand 和 RDMA 技术解决了跨服务器节点间的通信瓶颈,确保了 AI 模型的训练效率。

【本站文章皆为原创,未经允许不得转载】:汤不热吧 » AI Server 硬件设计:拆开一台 H100 服务器,带你认识里面的各种模块与连线
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址