深度学习

第7页

MNN 异构调度避坑指南：详解 CPU、GPU、NPU 在处理不同层时的优先级自动分配逻辑

2026-03-04andy阅读(58)评论(0)

引言在端侧推理中，为了追求极致性能，我们往往会开启 GPU (OpenCL/Vulkan) 或 NPU (NNAPI/CoreML) 加速。然而，MNN 在处理某些算子不支持的情况下，会自动回退到 CPU。这种“异构调度”如果配置不当，会...

2026-03-03andy阅读(50)评论(0)

如何利用 MNN 缓存机制缩短首帧推理延迟：解决预热过程中的卡顿问题在移动端部署 AI 模型时，开发者常遇到“首帧卡顿”现象。这主要是因为 MNN 在首次推理时需要进行图优化、内存布局分配，尤其是使用 GPU (OpenCL/Vulkan...

2026-03-03andy阅读(53)评论(0)

1. 背景：移动端异构架构的挑战在移动端 SoC 中，常见的 ARM 架构通常采用 Big.LITTLE（大小核）设计。当运行 AI 模型推理时，如果系统将计算任务随机分配给小核，或者在大小核之间频繁切换，会导致推理耗时出现显著的“长尾效...

2026-03-03andy阅读(58)评论(0)

背景在端侧推理引擎（如 MNN, NCNN, TFLite）的开发中，算子（Op）的实现往往占据了大部分工作量。传统的做法是为每个算子编写特定的 Kernel，但在面对动态 Shape（如 NLP 任务中长度不一的句子）或复杂的维度变换（...

2026-03-02andy阅读(53)评论(0)

背景在移动端部署 AI 模型时，内存（RAM）通常是极其珍贵的资源。传统的模型加载方式往往需要将模型文件先从磁盘或 Assets 读取到内存缓冲区，再由推理引擎解析。这种方式导致了至少双倍的内存占用。 ncnn 提供的 from_andr...

2026-03-02andy阅读(57)评论(0)

背景在许多低端安卓设备上，GPU 驱动对 Vulkan 的支持不完善甚至完全缺失，迫使我们必须回到 CPU (ARM NEON) 进行推理。为了追求速度，开发者通常会开启 ncnn 的 FP16 模式，但在执行深度模型或具有全局平均池化（...

2026-03-02andy阅读(45)评论(0)

如何通过反汇编 ncnn 的 gemm.cpp 快速上手 ARM NEON 汇编优化在移动端推理框架 ncnn 中，卷积和矩阵乘法（GEMM）的性能核心在于 ARM NEON 汇编。对于初学者来说，直接从头编写汇编指令非常困难。本文将介绍...

2026-03-01andy阅读(61)评论(0)

如何利用 ncnn 的 opt.use_packing_layout 提升多通道卷积在 CPU 上的推理性能在移动端和边缘侧 AI 部署中，ncnn 以其极致的性能优化著称。许多开发者在优化推理速度时，往往只关注了多线程配置（num_th...

2026-03-01andy阅读(53)评论(0)

如何通过 ncnn 算子融合黑魔法减少推理时的内存读写在端侧推理优化中，算力往往不是唯一的瓶颈，内存带宽（Memory Bandwidth）才是。在 ncnn 推理框架中，虽然 ncnnoptimize 工具已经能自动处理大部分算子融合（...

2026-03-01andy阅读(61)评论(0)

如何通过 ncnn 的 Mat 结构理解端侧内存对齐：详解 32 字节对齐对 SIMD 加速的意义在高性能端侧推理框架（如腾讯的 ncnn）中，性能优化往往精确到每一位内存布局。在阅读 ncnn 源码时，你会发现其核心数据结构 ncnn:...