标签：服务器

AI Server 硬件设计：拆开一台 H100 服务器，带你认识里面的各种模块与连线

2026-02-12andy阅读(41)评论(0)

在当前的大模型（LLM）时代，NVIDIA H100 Tensor Core GPU 是训练和推理的主力核心。但一块 H100 GPU 本身并不能单独完成大规模训练任务。AI 服务器的设计精髓在于如何高效地将多块 H100 连接起来，形成一...

2026-02-11andy阅读(43)评论(0)

简介：软件定义AI算力与显存池化在现代AI训练和推理集群中，GPU显存（VRAM）是核心且昂贵的资源。传统的资源分配方式是静态的，即一个任务独占一台服务器上的一个或多个GPU及其全部显存。这种模式常导致两个主要问题：资源碎片化和低利用率。...

2026-01-31andy阅读(54)评论(0)

在构建大规模深度学习模型训练系统时，参数服务器（Parameter Server, PS）架构是一种常见的解决方案。它将模型参数的存储和更新集中在专用的PS节点上，而Worker节点（训练器）只负责计算梯度并发送给PS。PyTorch 提供...