ai-infra

第8页

面试官问：数据并行、模型并行与流水线并行，到底该在什么场景切分？

2026-01-31andy阅读(167)评论(0)

在训练大规模深度学习模型（特别是LLMs）时，单块GPU的计算能力和内存往往无法满足需求。分布式训练是解决这一问题的核心手段。面试中，区分数据并行（DP）、模型并行（MP/TP）和流水线并行（PP）及其切分依据，是考察候选人分布式系统理解能...

2026-01-31andy阅读(220)评论(0)

计算机体系结构中有一个长期存在的瓶颈，称为“内存墙”（Memory Wall）。它描述了处理器速度增长（基于摩尔定律）远快于内存访问速度和带宽增长的现象。对于传统的CPU计算任务，这早已是性能限制因素；而对于今天的大型语言模型（LLMs），...

2026-01-31andy阅读(163)评论(0)

在构建高性能AI训练服务器，尤其是涉及大型语言模型（LLM）或多模态模型的训练时，GPU之间的通信带宽往往成为整体性能的瓶颈。忽视互联技术（Interconnect）的选择，是许多开发者在组装硬件时常犯的“大坑”。本文将深入比较NVLink...

2026-01-30andy阅读(196)评论(0)

NVIDIA Nsight Systems (NSS) 是一个强大的系统级性能分析工具，它能够帮助开发者深入了解 GPU 和 CPU 之间的交互，以及 CUDA 算子（Kernel）的执行效率。对于深度学习应用而言，理解哪个算子耗时最长是性...

2026-01-30andy阅读(165)评论(0)

别再神话国产芯片：深度解析算子库生态对国产 GPU 落地限制的底层逻辑近年来，国产GPU在硬件设计上取得了显著进步。然而，当讨论它们在深度学习或高性能计算（HPC）领域的实际应用时，人们往往忽略了一个致命的核心问题：算子库生态。算子库生态...

2026-01-30andy阅读(175)评论(0)

概述：理解并行计算的基石在高性能计算领域，实现大规模数据并行是提升运算速度的关键。CPU和GPU在底层架构上选择了不同的路径来实现这一目标：CPU主要依赖SIMD (Single Instruction, Multiple Data)，而...

2026-01-30andy阅读(143)评论(0)

在深度学习领域，模型规模不断增大，对计算速度的要求也水涨船高。传统的FP32（单精度浮点数）运算虽然精度高，但计算量大、能耗高。为了解决这一问题，NVIDIA引入了专用的硬件加速单元——Tensor Core，并结合软件层面的混合精度（Mi...

2026-01-29andy阅读(209)评论(0)

在现代人工智能，特别是大型语言模型（LLM）的训练中，GPU的核心计算能力（TFLOPS）固然重要，但常常被忽视的瓶颈是数据移动的速度。本文将详细解释GPU中使用的HBM（High Bandwidth Memory，高带宽显存）技术，以及为...

2026-01-29andy阅读(193)评论(0)

在评估GPU、AI加速卡或高性能计算芯片的性能时，TFLOPS（Tera-Floating Point Operations Per Second，每秒万亿次浮点运算）是一个核心指标。然而，规格书上的TFLOPS数字往往是理论峰值性能，它极...