标签：详解

端侧量化误差溯源详解：为什么在 ncnn 里运行正常的 INT8 模型在 MNN 里会精度崩坏

2026-03-05andy阅读(5)评论(0)

背景在端侧 AI 部署中，INT8 量化是性能优化的必经之路。但开发者常遇到这样的怪事：同一套浮点权重，在 ncnn 下量化后精度尚可，但在 MNN 下却出现预测结果完全不可用的“崩坏”现象。这并非框架本身的 Bug，而是由量化标准实现、...

2026-03-05andy阅读(5)评论(0)

1. 为什么 INT8 是端侧推理的王道？在移动端部署 AI 模型时，INT8 量化几乎是必选项。它能将模型体积缩小 4 倍，且在拥有硬件加速的芯片上，推理速度可提升数倍。而这种「质变」的底层核心，正是 ARMv8.2-A 引入的 Dot...

2026-03-05andy阅读(5)评论(0)

背景在深度学习模型从训练框架（如 PyTorch、TensorFlow）导出到推理引擎的过程中，模型往往会携带大量仅在训练阶段有意义的节点。其中最典型的是 Dropout（防止过拟合，推理时丢弃率为 0）和 Identity（恒等映射，通...

2026-03-04andy阅读(12)评论(0)

引言在端侧推理中，为了追求极致性能，我们往往会开启 GPU (OpenCL/Vulkan) 或 NPU (NNAPI/CoreML) 加速。然而，MNN 在处理某些算子不支持的情况下，会自动回退到 CPU。这种“异构调度”如果配置不当，会...

2026-03-03andy阅读(19)评论(0)

背景在端侧推理引擎（如 MNN, NCNN, TFLite）的开发中，算子（Op）的实现往往占据了大部分工作量。传统的做法是为每个算子编写特定的 Kernel，但在面对动态 Shape（如 NLP 任务中长度不一的句子）或复杂的维度变换（...

2026-03-02andy阅读(18)评论(0)

背景在移动端部署 AI 模型时，内存（RAM）通常是极其珍贵的资源。传统的模型加载方式往往需要将模型文件先从磁盘或 Assets 读取到内存缓冲区，再由推理引擎解析。这种方式导致了至少双倍的内存占用。 ncnn 提供的 from_andr...

2026-03-01andy阅读(28)评论(0)

如何通过 ncnn 的 Mat 结构理解端侧内存对齐：详解 32 字节对齐对 SIMD 加速的意义在高性能端侧推理框架（如腾讯的 ncnn）中，性能优化往往精确到每一位内存布局。在阅读 ncnn 源码时，你会发现其核心数据结构 ncnn:...

2026-03-01andy阅读(24)评论(0)

背景在嵌入式设备或 Android/iOS 开发中，AI 模型的推理性能不仅取决于算法复杂度，还深受系统资源调度的影响。很多开发者会发现，ncnn 在连续推理时，由于系统底层的 malloc 和 free 导致内存碎片或内核锁竞争，从而引...

2026-03-01andy阅读(25)评论(0)

如何使用 Go plugin 模块实现动态加载业务逻辑？在构建高度可扩展的系统时，我们常常希望在不重新编译主程序的情况下，动态地增加或修改业务逻辑。Go 语言从 1.8 版本开始提供了官方的 plugin 模块，支持将代码编译成共享库（....

2026-02-28andy阅读(30)评论(0)

如何通过系统底层指令精准监控国产AI芯片的算力能效比在智算中心和国产化替代的趋势下，针对国产AI芯片（如华为昇腾、寒武纪、元枢等）的精细化监控变得至关重要。本文将以昇腾（Ascend）系列芯片为例，重点讲解如何通过底层指令获取实时功耗与算...