andy的文章

第9页

端侧量化误差溯源详解：为什么在 ncnn 里运行正常的 INT8 模型在 MNN 里会精度崩坏

2026-03-05andy阅读(52)评论(0)

背景在端侧 AI 部署中，INT8 量化是性能优化的必经之路。但开发者常遇到这样的怪事：同一套浮点权重，在 ncnn 下量化后精度尚可，但在 MNN 下却出现预测结果完全不可用的“崩坏”现象。这并非框架本身的 Bug，而是由量化标准实现、...

2026-03-05andy阅读(41)评论(0)

如何通过CI/CD自动化流水线解决模型上线难题：组建高效MLOps团队实战在AI基础设施的构建中，组建一个高效的MLOps团队不仅是人才的堆砌，更是流程与工具链的深度融合。数据科学家（DS）负责算法逻辑，机器学习工程师（MLE）负责模型工...

2026-03-05andy阅读(46)评论(0)

在移动端部署深度学习模型时，开发者常面临一个困境：简单的设置线程数为核心总数往往会导致严重的发热降频，而线程数太少又无法满足实时性需求。本文将深入解析如何在 ARM big.LITTLE 架构（如典型的 A76+A55 组合）下，通过合理的...

2026-03-05andy阅读(45)评论(0)

1. 为什么 INT8 是端侧推理的王道？在移动端部署 AI 模型时，INT8 量化几乎是必选项。它能将模型体积缩小 4 倍，且在拥有硬件加速的芯片上，推理速度可提升数倍。而这种「质变」的底层核心，正是 ARMv8.2-A 引入的 Dot...

2026-03-05andy阅读(46)评论(0)

背景在深度学习模型从训练框架（如 PyTorch、TensorFlow）导出到推理引擎的过程中，模型往往会携带大量仅在训练阶段有意义的节点。其中最典型的是 Dropout（防止过拟合，推理时丢弃率为 0）和 Identity（恒等映射，通...

2026-03-05andy阅读(40)评论(0)

如何通过动态批处理与模型剪枝优化部署成本？在企业级 AI 基础设施建设中，模型推理的硬件成本（GPU/NPU 租赁与功耗）往往占据了运营成本的大头。本文将从 AI Infra 的视角出发，深入探讨如何结合模型剪枝 (Model Pruni...

2026-03-04andy阅读(38)评论(0)

如何通过 MNN 的 WeightGrad 机制在移动端实现极致高效的本地权重在线微调在端侧 AI 场景中，为了保护用户隐私或实现个性化推荐，我们需要在移动端设备上直接对模型进行微调（Fine-tuning）。阿里巴巴开源的 MNN (M...

2026-03-04andy阅读(64)评论(0)

如何利用 vLLM 实现大语言模型的高吞吐与低延迟推理部署在 LLM（大语言模型）的生产级部署中，推理延迟和吞吐量是衡量系统性能的核心指标。传统的推理框架由于 KV Cache 管理效率低下，往往面临内存碎片化严重、显存利用率低等挑战。v...

2026-03-04andy阅读(58)评论(0)

引言在端侧推理中，为了追求极致性能，我们往往会开启 GPU (OpenCL/Vulkan) 或 NPU (NNAPI/CoreML) 加速。然而，MNN 在处理某些算子不支持的情况下，会自动回退到 CPU。这种“异构调度”如果配置不当，会...

2026-03-04andy阅读(55)评论(0)

如何构建安全可靠的边缘模型OTA更新系统在边缘计算场景中，模型部署并非一劳永逸。随着数据的演进，模型需要频繁迭代。然而，边缘设备通常面临网络带宽波动、电力供应不稳以及物理安全威胁。如何利用OTA（Over-The-Air）技术安全、可靠地...