标签：ncnn

怎样利用移动端推理库（MNN/NCNN）快速原型化车载 AI 功能：从 NDK 环境到芯片适配

2026-03-24andy阅读(54)评论(0)

如何利用 MNN 快速实现车载 AI 功能原型：从 NDK 开发到 GPU 加速适配在车载 AI 开发中，座舱视觉（如 DMS 疲劳驾驶检测、OMS 乘员监控）和辅助驾驶功能对实时性要求极高。车载芯片（如高通 8155、芯驰 X9 系列）...

2026-03-05andy阅读(92)评论(0)

背景在端侧 AI 部署中，INT8 量化是性能优化的必经之路。但开发者常遇到这样的怪事：同一套浮点权重，在 ncnn 下量化后精度尚可，但在 MNN 下却出现预测结果完全不可用的“崩坏”现象。这并非框架本身的 Bug，而是由量化标准实现、...

2026-03-02andy阅读(83)评论(0)

背景在移动端部署 AI 模型时，内存（RAM）通常是极其珍贵的资源。传统的模型加载方式往往需要将模型文件先从磁盘或 Assets 读取到内存缓冲区，再由推理引擎解析。这种方式导致了至少双倍的内存占用。 ncnn 提供的 from_andr...

2026-03-02andy阅读(93)评论(0)

背景在许多低端安卓设备上，GPU 驱动对 Vulkan 的支持不完善甚至完全缺失，迫使我们必须回到 CPU (ARM NEON) 进行推理。为了追求速度，开发者通常会开启 ncnn 的 FP16 模式，但在执行深度模型或具有全局平均池化（...

2026-03-02andy阅读(76)评论(0)

如何通过反汇编 ncnn 的 gemm.cpp 快速上手 ARM NEON 汇编优化在移动端推理框架 ncnn 中，卷积和矩阵乘法（GEMM）的性能核心在于 ARM NEON 汇编。对于初学者来说，直接从头编写汇编指令非常困难。本文将介绍...

2026-03-01andy阅读(95)评论(0)

如何利用 ncnn 的 opt.use_packing_layout 提升多通道卷积在 CPU 上的推理性能在移动端和边缘侧 AI 部署中，ncnn 以其极致的性能优化著称。许多开发者在优化推理速度时，往往只关注了多线程配置（num_th...

2026-03-01andy阅读(79)评论(0)

如何通过 ncnn 算子融合黑魔法减少推理时的内存读写在端侧推理优化中，算力往往不是唯一的瓶颈，内存带宽（Memory Bandwidth）才是。在 ncnn 推理框架中，虽然 ncnnoptimize 工具已经能自动处理大部分算子融合（...

2026-03-01andy阅读(89)评论(0)

如何通过 ncnn 的 Mat 结构理解端侧内存对齐：详解 32 字节对齐对 SIMD 加速的意义在高性能端侧推理框架（如腾讯的 ncnn）中，性能优化往往精确到每一位内存布局。在阅读 ncnn 源码时，你会发现其核心数据结构 ncnn:...

2026-03-01andy阅读(79)评论(0)

背景在嵌入式设备或 Android/iOS 开发中，AI 模型的推理性能不仅取决于算法复杂度，还深受系统资源调度的影响。很多开发者会发现，ncnn 在连续推理时，由于系统底层的 malloc 和 free 导致内存碎片或内核锁竞争，从而引...

2026-02-13andy阅读(174)评论(0)

在移动端 AI 推理领域，MNN（阿里巴巴）和 NCNN（腾讯）是两个最受欢迎的深度学习推理框架。它们的性能差异往往取决于底层的硬件加速能力和驱动适配情况，尤其是在面对高通（Qualcomm Adreno）和联发科（MediaTek Mal...