深度学习

第3页

大模型权重 4-bit 量化详解：深度剖析 GPTQ 与 AWQ 算法在移动端的精度权衡

2026-03-14andy阅读(35)评论(0)

如何利用 GPTQ 与 AWQ 算法实现 LLM 4-bit 量化：原理剖析与端侧适配指南大语言模型（LLM）如 Llama 3、Qwen 等动辄数十亿的参数量，让移动端和边缘侧部署面临巨大的显存挑战。4-bit 量化技术通过将模型权重从...

2026-03-14andy阅读(26)评论(0)

如何通过修改 Cgroup 调度组提升 Android 端侧 AI 推理性能在 Android 端侧部署 AI 模型时，开发者常遇到一个棘手问题：推理任务在实验室测试时速度飞快，但在用户复杂的多任务场景下，推理延迟会剧烈波动。这往往是因为...

2026-03-14andy阅读(28)评论(0)

1. 为什么你的 AR 应用会卡顿？在开发基于 TensorFlow Lite、MNN 或 NCNN 的实时 AR（增强现实）应用时，开发者常遇到“画面撕裂”或“UI 坐标漂移”的问题。根本原因是 AI 推理频率（如 20-40ms）与系...

2026-03-13andy阅读(30)评论(0)

在 Android 移动端部署 AI 模型时，开发者常会发现：虽然 GPU 推理速度很快，但首次加载模型（或 App 重启后首次推理）时往往会出现明显的卡顿，耗时甚至达到 3-10 秒。这主要是由于 GPU 后端（如 OpenCL、Vulk...

2026-03-13andy阅读(28)评论(0)

在移动端部署深度学习模型（如使用 MNN、NCNN 或 TFLite）时，开发者常遇到这样的困境：模型刚启动时推理飞快，但持续运行几分钟后，帧率骤降。这通常是由于安卓系统的温控系统（Thermal Service）为了保护硬件，强制降低了 ...

2026-03-13andy阅读(36)评论(0)

如何利用 ASan 与 HWAsan 精准定位 Android 端侧推理引擎的内存损坏在开发基于 ncnn、MNN 或 TFLite 等框架的 Android 端侧推理引擎时，由于涉及大量 C++ 原始指针操作、高性能内存池管理以及复杂的...

2026-03-13andy阅读(37)评论(0)

如何在 Android 端优雅处理 TFLite 模型动态尺寸推理而无需频繁重构计算图在移动端 AI 开发中，我们经常遇到输入尺寸不固定的场景，如 OCR 识别（文本行长度不一）、超分辨率（图片尺寸各异）或音频处理（时长不同）。传统的做法...

2026-03-12andy阅读(34)评论(0)

1. 为什么我们需要矢量化？在 Android 端侧推理（如 NCNN、MNN、TFLite）中，算子性能是核心。传统的标量计算（Scalar）一次只能处理一个数据，而 SIMD（Single Instruction Multiple D...

2026-03-12andy阅读(37)评论(0)

如何解决安卓多模型部署时的显存瓶颈：详解权重复用与Backbone共享技巧在安卓移动端部署 AI 能力时，开发者常面临「内存焦虑」。当你需要在一个 App 中同时运行人脸检测、五官定位和属性识别时，如果每个模型都包含独立的骨干网络（Bac...

2026-03-12andy阅读(33)评论(0)

如何在 Android 端使用 Memory Mapping (mmap) 技术防止大模型推理引发 OOM 在移动端部署 AI 模型（如 LLM、大参数量 CNN）时，最常见的痛点就是 OOM (Out Of Memory)。传统的加载方式...