AI Server 硬件设计:拆开一台 H100 服务器,带你认识里面的各种模块与连线
在当前的大模型(LLM)时代,NVIDIA H100 Tensor Core GPU 是训练和推理的主力核心。但一块 H100 GPU 本身并不能单独完成大规模训练任务。AI 服务器的设计精髓在于如何高效地将多块 H100 连接起来,形成一...
在当前的大模型(LLM)时代,NVIDIA H100 Tensor Core GPU 是训练和推理的主力核心。但一块 H100 GPU 本身并不能单独完成大规模训练任务。AI 服务器的设计精髓在于如何高效地将多块 H100 连接起来,形成一...
Kubernetes(K8s)的核心是控制平面(Control Plane),它负责维护集群的期望状态。在所有组件中,API Server 是集群唯一的入口。本篇文章将深入解析一个简单指令(例如创建或修改资源)从用户端(Client)发起,...
在构建和维护AI基础设施时,MongoDB经常被用作存储训练日志、模型元数据或特征工程结果的后端数据库。因此,确保数据备份(如使用 mongodump)的可靠性至关重要。当您尝试使用 mongodump 连接到较新的 MongoDB 服务器...