ai-infra

模拟场景：集群里有一张 GPU 出现了 ECC 报错（可修正错误），你该立刻下线它还是继续坚持到训练结束？

2026-02-21andy阅读(81)评论(0)

如何处理 GPU 的 ECC 可修正错误：立即下线还是坚持到训练结束？背景在深度学习集群中，GPU 显存错误（ECC Error）是运维和算法工程师经常面临的难题。当系统报出“可修正错误”（Correctable Error）时，你的训...

2026-02-17andy阅读(81)评论(0)

随着汽车智能化进程的加速，国产化NPU（神经网络处理器）在车载平台中扮演着越来越重要的角色。然而，许多新兴的国产NPU平台在提供模型部署SDK时，往往缺乏成熟的、细粒度的性能分析工具（Profiler）。当遇到模型推理延迟过高，特别是当延迟...

2026-02-17andy阅读(81)评论(0)

在处理大规模深度学习部署时，经常遇到这样的问题：一块拥有 80GB 显存的高端 GPU（如 NVIDIA A100/H100）运行着许多只需要 5GB 或 10GB 显存的小模型。传统的 GPU 调度机制要么独占整块 GPU，造成资源浪费，...

2026-02-17andy阅读(97)评论(0)

当我们在大规模 GPU 集群上进行分布式训练时，NCCL (NVIDIA Collective Communications Library) 扮演着核心的通信角色。如果训练过程频繁出现 NCCL Time Out 错误，这通常意味着节点间...

2026-02-17andy阅读(74)评论(0)

NVIDIA 的 Unified Memory (UM) 或称托管内存（Managed Memory），是 CUDA 6.0 引入的一项重要特性。它旨在通过提供一个统一的地址空间，让 CPU（Host）和 GPU（Device）可以共享数据...

2026-02-16andy阅读(79)评论(0)

在高性能计算和深度学习领域，NVIDIA的Triton编译器正逐渐成为编写高性能GPU内核（尤其针对矩阵乘法等张量操作）的首选工具。一个常被问到的面试问题是：为什么一个编译器生成的代码，在某些场景下，能够反超由经验丰富的专家手动编写、并经过...

2026-02-16andy阅读(86)评论(0)

矩阵乘法（GEMM）是高性能计算中最基础且最核心的操作之一。然而，简单的三层循环实现（ijk顺序）往往效率低下，主要瓶颈在于CPU L1/L2缓存的频繁失效（Cache Miss）。这是因为在默认的行主序（Row-Major）存储中，访问矩...

2026-02-16andy阅读(69)评论(0)

Warp Divergence（线程束分化）是CUDA编程中一个极其重要的概念，它直接关系到核函数（Kernel）的执行效率。对于追求极致性能的高性能算子来说，理解并消除Warp Divergence是提升速度的关键。 1. 什么是Warp...

2026-02-16andy阅读(78)评论(0)

在高性能计算（HPC）领域，理解何时工作负载受限于计算能力（Compute Bound）或内存带宽（Memory Bound）至关重要。这通常通过“屋顶线模型”（Roofline Model）来分析。对于矩阵乘法（GEMM）任务，我们希望...

2026-02-15andy阅读(67)评论(0)

在资源受限的端侧设备（如手机、IoT设备）上部署深度学习模型时，模型量化（通常是转换为INT8）是降低延迟和功耗的关键技术。然而，量化方案并非只有一种。本文将对比静态离线量化（Static Post-Training Quantizatio...