详解国产化环境下的模型精校方案:如何排查由于底层算子数值精度差异导致的模型不收敛
如何排查国产AI芯片环境下因算子精度差异导致的模型不收敛问题 在将深度学习模型(如ResNet、Transformer)从标准的PyTorch/TensorFlow环境迁移到国产NPU(如昇腾、寒武纪、昆仑芯等)时,开发者常遇到一个痛点:代...
如何排查国产AI芯片环境下因算子精度差异导致的模型不收敛问题 在将深度学习模型(如ResNet、Transformer)从标准的PyTorch/TensorFlow环境迁移到国产NPU(如昇腾、寒武纪、昆仑芯等)时,开发者常遇到一个痛点:代...
如何利用 MindSpore 算子下沉机制显著提升模型训练速度 在深度学习模型的训练过程中,Host(CPU)与 Device(如昇腾 NPU 或 GPU)之间的频繁通信往往是性能的绊脚石。国产 AI 框架 MindSpore 提供了一种强...
如何通过流水线排布优化摩尔线程 MT-S 系列显卡的 Transformer 算子性能 在国产 GPU 适配过程中,摩尔线程(Moore Threads)的 MUSA 架构表现出色。但要榨干其 MT-S 系列(如 MT-S80/MT-S30...
如何利用华为迁移工具自动化实现 CUDA 到 CANN 的算子代码映射 随着国产算力加速卡的应用普及,将原本运行在 NVIDIA GPU 上的 CUDA 算子迁移到华为昇腾 Ascend NPU 环境已成为开发者的核心痛点。本文将详解如何利...
1. 为什么大模型推理会受限于 HBM? 在大模型(LLM)推理过程中,Transformer 架构中存在大量的逐元素(Element-wise)操作,如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中,每个算子都需...
如何利用 Ascend C 手写高性能算子:解决昇腾模型不支持算子的终极方案 在将深度学习模型部署到昇腾(Ascend)昇腾 AI 处理器时,经常会遇到某些算子在 CANN 算子库中不存在或者性能不达标的情况。这时,使用 Ascend C(...
随着汽车智能化进程的加速,国产化NPU(神经网络处理器)在车载平台中扮演着越来越重要的角色。然而,许多新兴的国产NPU平台在提供模型部署SDK时,往往缺乏成熟的、细粒度的性能分析工具(Profiler)。当遇到模型推理延迟过高,特别是当延迟...
Warp Divergence(线程束分化)是CUDA编程中一个极其重要的概念,它直接关系到核函数(Kernel)的执行效率。对于追求极致性能的高性能算子来说,理解并消除Warp Divergence是提升速度的关键。 1. 什么是Warp...
别只知道 FlashAttention 的效果好,理解其背后的原理——解决显存带宽瓶颈——对于优化深度学习模型至关重要。标准 Self-Attention 机制在序列长度 $L$ 较大时,其性能瓶颈并非是计算量(FLOPs),而是显存的读写...
在移动端进行 AI 推理时,我们通常依赖 TFLite, MNN 或 NCNN 等成熟框架。然而,当模型引入了高度定制化的层(如新型激活函数、特定的数据重排或融合操作)时,这些框架可能缺乏相应的优化实现,甚至根本不支持。这导致模型必须回退到...