深度学习

第6页

TEE 可信推理架构详解：如何利用 TrustZone 构建 AI 模型的硬件级防火墙

2026-03-07andy阅读(50)评论(0)

为什么需要 TEE 可信推理？在移动端或边缘侧部署 AI 模型时，模型资产的安全性面临严峻挑战。传统的磁盘加密或混淆技术容易被 Root 权限后的攻击者通过内存镜像、侧信道分析等手段破解。ARM TrustZone 技术提供的 TEE (...

2026-03-06andy阅读(47)评论(0)

如何识别并解决推理库中的“伪 FP16”性能陷阱在移动端和边缘侧部署 AI 模型时，开发者通常会选择 FP16（半精度浮点数）来替代传统的 FP32（单精度浮点数）。直觉告诉我们，精度减半，速度应该翻倍，功耗也应该随之降低。然而，在实际开...

2026-03-06andy阅读(48)评论(0)

背景在深度学习模型部署过程中，我们经常会遇到由于推理框架（如 MNN、NCNN、TNN）更新较慢，导致某些新出的激活函数（如 Swish、HardSwish）或者自定义算子不被支持的情况。这时，开发者通常面临两个选择：一是修改模型结构，用...

2026-03-06andy阅读(54)评论(0)

如何利用 sysdump 剖析 CPU 降频对端侧推理性能的致命影响在移动端部署深度学习模型（如使用 ncnn, MNN 或 TFLite）时，开发者经常遇到一个诡异的问题：同样的模型，在实验室测试时推理耗时非常稳定（如 30ms），但集...

2026-03-06andy阅读(58)评论(0)

如何通过共享内存实现多进程模型权重共享：大幅降低 App 内存占用在端侧推理或高并发 Web 服务场景中，为了提升吞吐量，我们常会启动多个进程并行处理推理请求。然而，如果每个进程都独立加载一份模型（例如一个 2GB 的 BERT 模型），...

2026-03-05andy阅读(52)评论(0)

背景在端侧 AI 部署中，INT8 量化是性能优化的必经之路。但开发者常遇到这样的怪事：同一套浮点权重，在 ncnn 下量化后精度尚可，但在 MNN 下却出现预测结果完全不可用的“崩坏”现象。这并非框架本身的 Bug，而是由量化标准实现、...

2026-03-05andy阅读(46)评论(0)

在移动端部署深度学习模型时，开发者常面临一个困境：简单的设置线程数为核心总数往往会导致严重的发热降频，而线程数太少又无法满足实时性需求。本文将深入解析如何在 ARM big.LITTLE 架构（如典型的 A76+A55 组合）下，通过合理的...

2026-03-05andy阅读(45)评论(0)

1. 为什么 INT8 是端侧推理的王道？在移动端部署 AI 模型时，INT8 量化几乎是必选项。它能将模型体积缩小 4 倍，且在拥有硬件加速的芯片上，推理速度可提升数倍。而这种「质变」的底层核心，正是 ARMv8.2-A 引入的 Dot...

2026-03-05andy阅读(46)评论(0)

背景在深度学习模型从训练框架（如 PyTorch、TensorFlow）导出到推理引擎的过程中，模型往往会携带大量仅在训练阶段有意义的节点。其中最典型的是 Dropout（防止过拟合，推理时丢弃率为 0）和 Identity（恒等映射，通...

2026-03-04andy阅读(38)评论(0)

如何通过 MNN 的 WeightGrad 机制在移动端实现极致高效的本地权重在线微调在端侧 AI 场景中，为了保护用户隐私或实现个性化推荐，我们需要在移动端设备上直接对模型进行微调（Fine-tuning）。阿里巴巴开源的 MNN (M...