深度学习

第8页

QLoRA 原理详解：如何通过 NF4 数据类型实现移动端低成本的大模型在线微调

2026-03-15andy阅读(341)评论(0)

如何通过 QLoRA 与 NF4 数据类型实现大模型低成本高效微调在大模型（LLM）落地过程中，算力成本始终是核心痛点。传统的全量参数微调（Full Fine-tuning）动辄需要数百GB显存，即便是 LoRA 技术，在处理 70B 级...

2026-03-15andy阅读(277)评论(0)

如何利用剪枝与量化协同优化：实现大模型参数量与存储空间的双重压缩实战在部署大语言模型（LLM）或大型深度学习模型时，巨大的存储占用和内存消耗往往是核心瓶颈。单一的优化技术（如仅剪枝或仅量化）有时难以满足端侧设备极低的算力要求。本文将介绍一...

2026-03-15andy阅读(358)评论(0)

如何利用 FP8 量化突破端侧 LLM 推理瓶颈：对比 INT8 的精度优势在将大语言模型（LLM）部署到手机、边缘网关或国产 NPU 等端侧设备时，显存带宽和容量通常是最大的制约因素。为了压缩模型，INT8 量化曾是主流方案。然而，随着...

2026-03-14andy阅读(319)评论(0)

1. 为什么 LLM 全量化这么难？在端侧部署大语言模型（LLM）时，W8A8（权重和激活均为8位）全量化是极致加速和节省内存的核心。然而，LLM 在推理时，激活值（Activations）中常会出现极少数数值巨大的“离群点”（Outli...

2026-03-14andy阅读(254)评论(0)

如何通过修改 Cgroup 调度组提升 Android 端侧 AI 推理性能在 Android 端侧部署 AI 模型时，开发者常遇到一个棘手问题：推理任务在实验室测试时速度飞快，但在用户复杂的多任务场景下，推理延迟会剧烈波动。这往往是因为...

2026-03-14andy阅读(253)评论(0)

1. 为什么你的 AR 应用会卡顿？在开发基于 TensorFlow Lite、MNN 或 NCNN 的实时 AR（增强现实）应用时，开发者常遇到“画面撕裂”或“UI 坐标漂移”的问题。根本原因是 AI 推理频率（如 20-40ms）与系...

2026-03-13andy阅读(266)评论(0)

在 Android 移动端部署 AI 模型时，开发者常会发现：虽然 GPU 推理速度很快，但首次加载模型（或 App 重启后首次推理）时往往会出现明显的卡顿，耗时甚至达到 3-10 秒。这主要是由于 GPU 后端（如 OpenCL、Vulk...

2026-03-13andy阅读(328)评论(0)

在移动端部署深度学习模型（如使用 MNN、NCNN 或 TFLite）时，开发者常遇到这样的困境：模型刚启动时推理飞快，但持续运行几分钟后，帧率骤降。这通常是由于安卓系统的温控系统（Thermal Service）为了保护硬件，强制降低了 ...

2026-03-13andy阅读(270)评论(0)

如何利用 ASan 与 HWAsan 精准定位 Android 端侧推理引擎的内存损坏在开发基于 ncnn、MNN 或 TFLite 等框架的 Android 端侧推理引擎时，由于涉及大量 C++ 原始指针操作、高性能内存池管理以及复杂的...

2026-03-13andy阅读(260)评论(0)

如何在 Android 端优雅处理 TFLite 模型动态尺寸推理而无需频繁重构计算图在移动端 AI 开发中，我们经常遇到输入尺寸不固定的场景，如 OCR 识别（文本行长度不一）、超分辨率（图片尺寸各异）或音频处理（时长不同）。传统的做法...