标签：cuda

摩尔线程 MUSA 架构详解：如何利用兼容 CUDA 的编程接口快速迁移现有深度学习项目

2026-02-25andy阅读(106)评论(0)

引言随着国产 GPU 算力的快速发展，摩尔线程推出的 MUSA (Moore Threads Unified System Architecture) 架构因其对 CUDA 生态的高度兼容性，成为 AI 开发者实现国产化替代的首选路径之一...

2026-02-24andy阅读(82)评论(0)

如何利用华为迁移工具自动化实现 CUDA 到 CANN 的算子代码映射随着国产算力加速卡的应用普及，将原本运行在 NVIDIA GPU 上的 CUDA 算子迁移到华为昇腾 Ascend NPU 环境已成为开发者的核心痛点。本文将详解如何利...

2026-02-23andy阅读(206)评论(0)

如何解决 PyTorch 模型迁移至昇腾 NPU 时的算子性能瓶颈与精度漂移在国产化替代的浪潮中，将深度学习模型从 CUDA 环境迁移到华为昇腾（Ascend）CANN 平台，绝非简单的 device=’cuda’...

2026-02-16andy阅读(76)评论(0)

在高性能计算和深度学习领域，NVIDIA的Triton编译器正逐渐成为编写高性能GPU内核（尤其针对矩阵乘法等张量操作）的首选工具。一个常被问到的面试问题是：为什么一个编译器生成的代码，在某些场景下，能够反超由经验丰富的专家手动编写、并经过...

2026-02-16andy阅读(65)评论(0)

Warp Divergence（线程束分化）是CUDA编程中一个极其重要的概念，它直接关系到核函数（Kernel）的执行效率。对于追求极致性能的高性能算子来说，理解并消除Warp Divergence是提升速度的关键。 1. 什么是Warp...

2026-02-12andy阅读(84)评论(0)

在高性能计算和深度学习推理领域，我们经常遇到这样的瓶颈：模型计算量不大，但由于由大量细小、串联的计算操作（Kernel）组成，导致整体性能不佳。瓶颈不在于GPU的计算能力（SMs），而在于CPU与驱动层（Driver）频繁通信以发射（Lau...

2026-02-11andy阅读(95)评论(0)

在脱离了熟悉的 CUDA 生态后，针对华为昇腾（Ascend）硬件进行深度学习模型推理性能优化，是许多开发者需要面临的挑战。昇腾平台的核心是 CANN（Compute Architecture for Neural Networks）工具链...

2026-02-02andy阅读(130)评论(0)

在 AI 推理加速领域，人们通常关注 FLOPS 或计算密度，但对于延迟敏感的场景（尤其是使用小型模型或具有许多顺序层的大型模型），CPU 发射（Kernel Launch）开销往往会成为主要的性能瓶颈。每次 PyTorch 调用 GPU ...

2026-01-30andy阅读(136)评论(0)

引言：为什么需要 Faiss GPU？在处理海量向量数据（例如，数百万或数十亿个128维或更高维度的向量）时，传统的CPU计算受限于核心数量和内存带宽，查询延迟往往难以接受。Faiss通过其高度优化的GPU模块，能够充分利用NVIDIA ...

2026-01-29andy阅读(96)评论(0)

自动混合精度（Automatic Mixed Precision, AMP）训练是 PyTorch 1.6+ 版本引入的一项重要功能，它允许模型在训练过程中自动使用 FP16（半精度浮点数）进行计算，同时保留 FP32（单精度浮点数）来处理...