2026年03月的文章

第11页

详解 MNN 转换工具的图裁剪功能：如何剔除推理期无关的 Identity 节点与 Dropout 层

2026-03-05andy阅读(49)评论(0)

背景在深度学习模型从训练框架（如 PyTorch、TensorFlow）导出到推理引擎的过程中，模型往往会携带大量仅在训练阶段有意义的节点。其中最典型的是 Dropout（防止过拟合，推理时丢弃率为 0）和 Identity（恒等映射，通...

2026-03-05andy阅读(45)评论(0)

如何通过动态批处理与模型剪枝优化部署成本？在企业级 AI 基础设施建设中，模型推理的硬件成本（GPU/NPU 租赁与功耗）往往占据了运营成本的大头。本文将从 AI Infra 的视角出发，深入探讨如何结合模型剪枝 (Model Pruni...

2026-03-04andy阅读(40)评论(0)

如何通过 MNN 的 WeightGrad 机制在移动端实现极致高效的本地权重在线微调在端侧 AI 场景中，为了保护用户隐私或实现个性化推荐，我们需要在移动端设备上直接对模型进行微调（Fine-tuning）。阿里巴巴开源的 MNN (M...

2026-03-04andy阅读(69)评论(0)

如何利用 vLLM 实现大语言模型的高吞吐与低延迟推理部署在 LLM（大语言模型）的生产级部署中，推理延迟和吞吐量是衡量系统性能的核心指标。传统的推理框架由于 KV Cache 管理效率低下，往往面临内存碎片化严重、显存利用率低等挑战。v...

2026-03-04andy阅读(61)评论(0)

引言在端侧推理中，为了追求极致性能，我们往往会开启 GPU (OpenCL/Vulkan) 或 NPU (NNAPI/CoreML) 加速。然而，MNN 在处理某些算子不支持的情况下，会自动回退到 CPU。这种“异构调度”如果配置不当，会...

2026-03-04andy阅读(56)评论(0)

如何构建安全可靠的边缘模型OTA更新系统在边缘计算场景中，模型部署并非一劳永逸。随着数据的演进，模型需要频繁迭代。然而，边缘设备通常面临网络带宽波动、电力供应不稳以及物理安全威胁。如何利用OTA（Over-The-Air）技术安全、可靠地...

2026-03-03andy阅读(52)评论(0)

如何利用 MNN 缓存机制缩短首帧推理延迟：解决预热过程中的卡顿问题在移动端部署 AI 模型时，开发者常遇到“首帧卡顿”现象。这主要是因为 MNN 在首次推理时需要进行图优化、内存布局分配，尤其是使用 GPU (OpenCL/Vulkan...

2026-03-03andy阅读(66)评论(0)

核心背景在 AI 基础设施（AI Infra）的生产实践中，模型更新的风险极高。由于离线评估与在线数据的偏移（Skew），新版模型上线后可能出现延迟激增或预测精度大幅下降。为了保障业务连续性，我们需要构建一套基于模型注册中心与指标驱动发布...

2026-03-03andy阅读(55)评论(0)

1. 背景：移动端异构架构的挑战在移动端 SoC 中，常见的 ARM 架构通常采用 Big.LITTLE（大小核）设计。当运行 AI 模型推理时，如果系统将计算任务随机分配给小核，或者在大小核之间频繁切换，会导致推理耗时出现显著的“长尾效...

2026-03-03andy阅读(59)评论(0)

背景在端侧推理引擎（如 MNN, NCNN, TFLite）的开发中，算子（Op）的实现往往占据了大部分工作量。传统的做法是为每个算子编写特定的 Kernel，但在面对动态 Shape（如 NLP 任务中长度不一的句子）或复杂的维度变换（...