标签：npu

如何解决 Android 异构计算中的 Fallback 难题：当 NPU 算子不支持时如何平滑回退到 CPU

2026-03-11andy阅读(25)评论(0)

如何解决 Android 异构计算中的 Fallback 难题：当 NPU 算子不支持时如何平滑回退到 CPU 背景与痛点在 Android 端侧 AI 开发中，利用 NPU（如高通 Hexagon、联发科 APU）能显著降低推理延时和功...

2026-03-04andy阅读(54)评论(0)

引言在端侧推理中，为了追求极致性能，我们往往会开启 GPU (OpenCL/Vulkan) 或 NPU (NNAPI/CoreML) 加速。然而，MNN 在处理某些算子不支持的情况下，会自动回退到 CPU。这种“异构调度”如果配置不当，会...

2026-02-28andy阅读(54)评论(0)

如何针对瑞芯微 RK3588 NPU 进行算子裁剪与加速：实现边缘 AI 的极致响应在边缘计算领域，瑞芯微 RK3588 以其 6TOPS 的 NPU 算力成为国产芯片的佼佼者。然而，许多开发者发现直接部署模型时，推理速度远达不到预期。这...

2026-02-28andy阅读(65)评论(0)

在国产 NPU（如华为昇腾 Ascend、百度昆仑芯等）上进行大规模深度学习训练时，开发者常遇到一个痛点：计算单元（NPU）在等待数据，导致利用率低下。这种情况在处理海量小文件（如千万级的 ImageNet 图片）时尤为严重。由于分布式存储...

2026-02-24andy阅读(92)评论(0)

如何解决昇腾 NPU 上频繁创建张量导致的内存碎片问题在将模型从 CUDA 迁移到昇腾 NPU（Ascend）时，很多开发者会遇到一个诡异现象：通过 nvidia-smi 类似的工具观察，显存（HBM）占用并没满，但程序却频繁报出 Out...

2026-02-17andy阅读(78)评论(0)

随着汽车智能化进程的加速，国产化NPU（神经网络处理器）在车载平台中扮演着越来越重要的角色。然而，许多新兴的国产NPU平台在提供模型部署SDK时，往往缺乏成熟的、细粒度的性能分析工具（Profiler）。当遇到模型推理延迟过高，特别是当延迟...

2026-02-14andy阅读(66)评论(0)

华为昇腾（Ascend）系列芯片搭载了基于达芬奇（DaVinci）架构的NPU，旨在提供极致的AI推理性能。然而，将PyTorch或TensorFlow训练的模型部署到昇腾NPU上，需要经过严格的图优化和格式转换。本文将聚焦于使用核心工具A...

2026-02-12andy阅读(126)评论(0)

模型量化（Quantization）是端侧推理加速的关键技术之一，它将浮点数（FP32）权重和激活值转换为低比特整数（如INT8），显著减少了模型大小并提高了计算效率。然而，量化方式的选择——特别是对称量化（Symmetric Quanti...

2026-02-10andy阅读(125)评论(0)

在深度学习模型优化，尤其是移动端（如高通Adreno NPU、华为Ascend NPU等）部署时，我们通常认为1×1卷积（点卷积）由于其极少的浮点运算量（FLOPs）理应比3×3卷积快得多。然而，在实际的NPU性能测试中...

2026-02-05andy阅读(109)评论(0)

在自动驾驶和智能座舱系统中，高性能车载计算平台通常依赖多个NPU（神经网络处理器）进行并行计算。这些NPU之间高效的数据交换是实现分布式训练和推理加速的关键，而集体通信库（Collective Communication Libraries...