ai-infra

第2页

InfiniBand vs RoCE v2：大模型分布式训练网络通信协议深度对比与选型指南

2026-06-27andy阅读(129)

引言：为什么网络通信成为AI集群的”必争之地” 随着大模型参数规模突破千亿乃至万亿级别，分布式训练已成为AI基础设施的标配。然而，当我们将计算任务分散到数十甚至数千张GPU上时，一个严峻的问题随之浮现：计算可以并行，...

2026-06-23andy阅读(83)

引言：大模型推理的”慢”到底慢在哪里？如果你在生产环境中部署过 GPT 级别的自回归语言模型，一定对 Token 生成速度之慢感同身受：即使在 A100/H100 这类顶级 GPU 上，大模型的 Decode 阶段...

2026-06-20andy阅读(68)

在生产环境中，GPU 资源往往十分昂贵。当你部署多个轻量级模型（如分类器、Embedding 模型、检测头）时，如果每个模型独占一张 GPU，资源浪费会非常严重。CUDA Stream 提供了一种在同一张 GPU 上并发执行多个推理任务的机...

2026-02-17andy阅读(284)评论(0)

随着汽车智能化进程的加速，国产化NPU（神经网络处理器）在车载平台中扮演着越来越重要的角色。然而，许多新兴的国产NPU平台在提供模型部署SDK时，往往缺乏成熟的、细粒度的性能分析工具（Profiler）。当遇到模型推理延迟过高，特别是当延迟...

2026-02-17andy阅读(319)评论(0)

在处理大规模深度学习部署时，经常遇到这样的问题：一块拥有 80GB 显存的高端 GPU（如 NVIDIA A100/H100）运行着许多只需要 5GB 或 10GB 显存的小模型。传统的 GPU 调度机制要么独占整块 GPU，造成资源浪费，...

2026-02-17andy阅读(449)评论(0)

当我们在大规模 GPU 集群上进行分布式训练时，NCCL (NVIDIA Collective Communications Library) 扮演着核心的通信角色。如果训练过程频繁出现 NCCL Time Out 错误，这通常意味着节点间...

2026-02-17andy阅读(373)评论(0)

NVIDIA 的 Unified Memory (UM) 或称托管内存（Managed Memory），是 CUDA 6.0 引入的一项重要特性。它旨在通过提供一个统一的地址空间，让 CPU（Host）和 GPU（Device）可以共享数据...

2026-02-16andy阅读(305)评论(0)

在高性能计算和深度学习领域，NVIDIA的Triton编译器正逐渐成为编写高性能GPU内核（尤其针对矩阵乘法等张量操作）的首选工具。一个常被问到的面试问题是：为什么一个编译器生成的代码，在某些场景下，能够反超由经验丰富的专家手动编写、并经过...

2026-02-16andy阅读(338)评论(0)

矩阵乘法（GEMM）是高性能计算中最基础且最核心的操作之一。然而，简单的三层循环实现（ijk顺序）往往效率低下，主要瓶颈在于CPU L1/L2缓存的频繁失效（Cache Miss）。这是因为在默认的行主序（Row-Major）存储中，访问矩...

2026-02-16andy阅读(269)评论(0)

Warp Divergence（线程束分化）是CUDA编程中一个极其重要的概念，它直接关系到核函数（Kernel）的执行效率。对于追求极致性能的高性能算子来说，理解并消除Warp Divergence是提升速度的关键。 1. 什么是Warp...