MNN 几何计算(Geometric Computing)详解:如何通过动态形状变换实现算子的高度复用
背景 在端侧推理引擎(如 MNN, NCNN, TFLite)的开发中,算子(Op)的实现往往占据了大部分工作量。传统的做法是为每个算子编写特定的 Kernel,但在面对动态 Shape(如 NLP 任务中长度不一的句子)或复杂的维度变换(...
背景 在端侧推理引擎(如 MNN, NCNN, TFLite)的开发中,算子(Op)的实现往往占据了大部分工作量。传统的做法是为每个算子编写特定的 Kernel,但在面对动态 Shape(如 NLP 任务中长度不一的句子)或复杂的维度变换(...
背景 在移动端部署 AI 模型时,内存(RAM)通常是极其珍贵的资源。传统的模型加载方式往往需要将模型文件先从磁盘或 Assets 读取到内存缓冲区,再由推理引擎解析。这种方式导致了至少双倍的内存占用。 ncnn 提供的 from_andr...
背景 在许多低端安卓设备上,GPU 驱动对 Vulkan 的支持不完善甚至完全缺失,迫使我们必须回到 CPU (ARM NEON) 进行推理。为了追求速度,开发者通常会开启 ncnn 的 FP16 模式,但在执行深度模型或具有全局平均池化(...
如何通过反汇编 ncnn 的 gemm.cpp 快速上手 ARM NEON 汇编优化 在移动端推理框架 ncnn 中,卷积和矩阵乘法(GEMM)的性能核心在于 ARM NEON 汇编。对于初学者来说,直接从头编写汇编指令非常困难。本文将介绍...
如何利用 ncnn 的 opt.use_packing_layout 提升多通道卷积在 CPU 上的推理性能 在移动端和边缘侧 AI 部署中,ncnn 以其极致的性能优化著称。许多开发者在优化推理速度时,往往只关注了多线程配置(num_th...
如何通过 ncnn 算子融合黑魔法减少推理时的内存读写 在端侧推理优化中,算力往往不是唯一的瓶颈,内存带宽(Memory Bandwidth)才是。在 ncnn 推理框架中,虽然 ncnnoptimize 工具已经能自动处理大部分算子融合(...
如何通过 ncnn 的 Mat 结构理解端侧内存对齐:详解 32 字节对齐对 SIMD 加速的意义 在高性能端侧推理框架(如腾讯的 ncnn)中,性能优化往往精确到每一位内存布局。在阅读 ncnn 源码时,你会发现其核心数据结构 ncnn:...
背景 在嵌入式设备或 Android/iOS 开发中,AI 模型的推理性能不仅取决于算法复杂度,还深受系统资源调度的影响。很多开发者会发现,ncnn 在连续推理时,由于系统底层的 malloc 和 free 导致内存碎片或内核锁竞争,从而引...
如何通过系统底层指令精准监控国产AI芯片的算力能效比 在智算中心和国产化替代的趋势下,针对国产AI芯片(如华为昇腾、寒武纪、元枢等)的精细化监控变得至关重要。本文将以昇腾(Ascend)系列芯片为例,重点讲解如何通过底层指令获取实时功耗与算...
如何针对瑞芯微 RK3588 NPU 进行算子裁剪与加速:实现边缘 AI 的极致响应 在边缘计算领域,瑞芯微 RK3588 以其 6TOPS 的 NPU 算力成为国产芯片的佼佼者。然而,许多开发者发现直接部署模型时,推理速度远达不到预期。这...