标签：推理

第3页

TEE 可信推理架构详解：如何利用 TrustZone 构建 AI 模型的硬件级防火墙

2026-03-07andy阅读(78)评论(0)

为什么需要 TEE 可信推理？在移动端或边缘侧部署 AI 模型时，模型资产的安全性面临严峻挑战。传统的磁盘加密或混淆技术容易被 Root 权限后的攻击者通过内存镜像、侧信道分析等手段破解。ARM TrustZone 技术提供的 TEE (...

2026-03-06andy阅读(70)评论(0)

如何识别并解决推理库中的“伪 FP16”性能陷阱在移动端和边缘侧部署 AI 模型时，开发者通常会选择 FP16（半精度浮点数）来替代传统的 FP32（单精度浮点数）。直觉告诉我们，精度减半，速度应该翻倍，功耗也应该随之降低。然而，在实际开...

2026-03-06andy阅读(73)评论(0)

背景在深度学习模型部署过程中，我们经常会遇到由于推理框架（如 MNN、NCNN、TNN）更新较慢，导致某些新出的激活函数（如 Swish、HardSwish）或者自定义算子不被支持的情况。这时，开发者通常面临两个选择：一是修改模型结构，用...

2026-03-06andy阅读(83)评论(0)

如何利用 sysdump 剖析 CPU 降频对端侧推理性能的致命影响在移动端部署深度学习模型（如使用 ncnn, MNN 或 TFLite）时，开发者经常遇到一个诡异的问题：同样的模型，在实验室测试时推理耗时非常稳定（如 30ms），但集...

2026-03-05andy阅读(73)评论(0)

在移动端部署深度学习模型时，开发者常面临一个困境：简单的设置线程数为核心总数往往会导致严重的发热降频，而线程数太少又无法满足实时性需求。本文将深入解析如何在 ARM big.LITTLE 架构（如典型的 A76+A55 组合）下，通过合理的...

2026-03-05andy阅读(74)评论(0)

背景在深度学习模型从训练框架（如 PyTorch、TensorFlow）导出到推理引擎的过程中，模型往往会携带大量仅在训练阶段有意义的节点。其中最典型的是 Dropout（防止过拟合，推理时丢弃率为 0）和 Identity（恒等映射，通...

2026-03-04andy阅读(100)评论(0)

如何利用 vLLM 实现大语言模型的高吞吐与低延迟推理部署在 LLM（大语言模型）的生产级部署中，推理延迟和吞吐量是衡量系统性能的核心指标。传统的推理框架由于 KV Cache 管理效率低下，往往面临内存碎片化严重、显存利用率低等挑战。v...

2026-03-03andy阅读(81)评论(0)

如何利用 MNN 缓存机制缩短首帧推理延迟：解决预热过程中的卡顿问题在移动端部署 AI 模型时，开发者常遇到“首帧卡顿”现象。这主要是因为 MNN 在首次推理时需要进行图优化、内存布局分配，尤其是使用 GPU (OpenCL/Vulkan...

2026-03-02andy阅读(96)评论(0)

如何为大模型推理服务定义 SLA 并使用 Prometheus + Grafana 实现精细化性能监控在 AI 推理（Inference）领域，性能监控不再仅仅是简单的 CPU/内存占用。对于大语言模型（LLM）而言，SLA（服务等级协议...

2026-03-02andy阅读(84)评论(0)

背景在许多低端安卓设备上，GPU 驱动对 Vulkan 的支持不完善甚至完全缺失，迫使我们必须回到 CPU (ARM NEON) 进行推理。为了追求速度，开发者通常会开启 ncnn 的 FP16 模式，但在执行深度模型或具有全局平均池化（...