2026年03月的文章

第6页

怎样应对安卓设备的降频保护：详解温控系统（Thermal Service）对长耗时推理的影响

2026-03-13andy阅读(29)评论(0)

在移动端部署深度学习模型（如使用 MNN、NCNN 或 TFLite）时，开发者常遇到这样的困境：模型刚启动时推理飞快，但持续运行几分钟后，帧率骤降。这通常是由于安卓系统的温控系统（Thermal Service）为了保护硬件，强制降低了 ...

2026-03-13andy阅读(41)评论(0)

如何利用 ASan 与 HWAsan 精准定位 Android 端侧推理引擎的内存损坏在开发基于 ncnn、MNN 或 TFLite 等框架的 Android 端侧推理引擎时，由于涉及大量 C++ 原始指针操作、高性能内存池管理以及复杂的...

2026-03-13andy阅读(39)评论(0)

如何在 Android 端优雅处理 TFLite 模型动态尺寸推理而无需频繁重构计算图在移动端 AI 开发中，我们经常遇到输入尺寸不固定的场景，如 OCR 识别（文本行长度不一）、超分辨率（图片尺寸各异）或音频处理（时长不同）。传统的做法...

2026-03-12andy阅读(40)评论(0)

1. 为什么我们需要矢量化？在 Android 端侧推理（如 NCNN、MNN、TFLite）中，算子性能是核心。传统的标量计算（Scalar）一次只能处理一个数据，而 SIMD（Single Instruction Multiple D...

2026-03-12andy阅读(41)评论(0)

如何利用强化学习优化 AI 训练集群的任务调度效率在现代 AI 基础设施中，如何高效分配 GPU 资源是核心挑战。传统的调度算法如 FIFO（先来先服务）或 DRF（主导资源公平调度）往往难以应对大模型（LLM）训练中复杂的显存碎片化和波...

2026-03-12andy阅读(41)评论(0)

如何解决安卓多模型部署时的显存瓶颈：详解权重复用与Backbone共享技巧在安卓移动端部署 AI 能力时，开发者常面临「内存焦虑」。当你需要在一个 App 中同时运行人脸检测、五官定位和属性识别时，如果每个模型都包含独立的骨干网络（Bac...

2026-03-12andy阅读(38)评论(0)

如何在 Android 端使用 Memory Mapping (mmap) 技术防止大模型推理引发 OOM 在移动端部署 AI 模型（如 LLM、大参数量 CNN）时，最常见的痛点就是 OOM (Out Of Memory)。传统的加载方式...

2026-03-12andy阅读(38)评论(0)

如何解决安卓 OpenCL GPU 推理比 CPU 慢的“负优化”问题？在端侧 AI 开发中，很多开发者习惯性地认为“GPU 肯定比 CPU 快”。但在安卓平台上，当你兴冲冲地把 NCNN、MNN 或 TNN 切换到 OpenCL 后端时...

2026-03-12andy阅读(34)评论(0)

引言在企业内部，随着业务对大语言模型（LLM）需求的激增，碎片化的模型部署会导致资源浪费和运维混乱。构建 LLM MaaS（Model-as-a-Service）平台的核心在于提供统一的接入层、完善的权限控制以及自动化的模型调度。本文将展...

2026-03-11andy阅读(47)评论(0)

如何解决 Android 异构计算中的 Fallback 难题：当 NPU 算子不支持时如何平滑回退到 CPU 背景与痛点在 Android 端侧 AI 开发中，利用 NPU（如高通 Hexagon、联发科 APU）能显著降低推理延时和功...