标签：详解

第2页

怎样在安卓端实现权重复用：详解多模型共享基础骨干网络（Backbone）的显存优化技巧

2026-03-12andy阅读(29)评论(0)

如何解决安卓多模型部署时的显存瓶颈：详解权重复用与Backbone共享技巧在安卓移动端部署 AI 能力时，开发者常面临「内存焦虑」。当你需要在一个 App 中同时运行人脸检测、五官定位和属性识别时，如果每个模型都包含独立的骨干网络（Bac...

2026-03-12andy阅读(28)评论(0)

如何解决安卓 OpenCL GPU 推理比 CPU 慢的“负优化”问题？在端侧 AI 开发中，很多开发者习惯性地认为“GPU 肯定比 CPU 快”。但在安卓平台上，当你兴冲冲地把 NCNN、MNN 或 TNN 切换到 OpenCL 后端时...

2026-03-11andy阅读(34)评论(0)

引言在移动端 AI 部署中，为了追求极致的能效比，通常会将计算任务从 CPU/GPU 卸载到专用的 DSP（数字信号处理器）上。高通 Hexagon DSP 凭借其 HVX（Hexagon Vector Extensions）指令集，能够...

2026-03-11andy阅读(27)评论(0)

如何通过 Vulkan 接口压榨移动端 GPU 算力：详解计算管线与内存屏障的极致优化在移动端 AI 推理框架（如 NCNN、MNN）中，Vulkan 已经成为跨平台 GPU 加速的事实标准。相比传统的 OpenGL ES，Vulkan ...

2026-03-10andy阅读(31)评论(0)

如何优化 Android 端 AI 模块启动：详解动态库的延迟加载策略在 Android 端集成 NCNN、MNN 或 TensorFlow Lite 等 AI 框架时，开发者常面临一个难题：这些框架生成的 .so 动态链接库通常很大（往...

2026-03-10andy阅读(28)评论(0)

如何利用 RenderScript 实现 Android 高性能图像预处理在移动端 AI 推理（如使用 TensorFlow Lite 或 MNN）的过程中，图像预处理（缩放、归一化、色域转换）往往会成为整体耗时的瓶颈。虽然 Google...

2026-03-10andy阅读(29)评论(0)

为什么选择 FP16？在移动端 AI 推理中，内存带宽和功耗通常是最大的性能瓶颈。相比传统的 FP32（单精度浮点），FP16（半精度浮点）不仅能减少 50% 的模型内存占用和带宽需求，还能在支持 ARMv8.2-A 指令集的 CPU 上...

2026-03-09andy阅读(29)评论(0)

如何理解 Android NNAPI 的算子分发逻辑：从底层架构到实战调用 Android NNAPI (Neural Networks API) 是 Android 系统中专门为机器学习推理设计的 C API。它不直接运行模型，而是作为“...

2026-03-09andy阅读(40)评论(0)

如何利用计算图切分实现可信环境（TEE）与非安全环境（REE）协同推理在端侧AI应用中，保护模型权重或用户隐私数据至关重要。传统的全加密推理（如全同态加密）性能极差，而“计算图切分”技术提供了一种实用的平衡方案：将涉及敏感隐私的计算环节（...

2026-03-08andy阅读(40)评论(0)

如何通过共享内存机制消除 TEE 内部推理的 Normal/Secure World 拷贝延迟在端侧 AI 安全推理场景中，为了保护模型权重或输入数据（如人脸特征、指纹信息），开发者通常将推理引擎部署在 TEE（可信执行环境，如 OP-T...