标签：详解

怎样优化大模型首词延迟（First Token Latency）：详解预填充阶段的量化加速技巧

2026-03-17andy阅读(2)评论(0)

如何优化大模型首词延迟：详解预填充阶段的量化加速技巧在大语言模型（LLM）的部署实践中，首词延迟（Time to First Token, TTFT）是影响用户交互体验的核心指标。当用户输入较长的 Prompt 时，模型需要经历一个漫长的...

2026-03-16andy阅读(6)评论(0)

如何通过 INT4 KV Cache 量化大幅提升移动端 LLM 的多轮对话上限在大模型（LLM）落地移动端的过程中，内存占用是最大的瓶颈。除了模型权重（Weights）外，KV Cache 的增长直接决定了多轮对话的上下文长度上限。本文...

2026-03-15andy阅读(12)评论(0)

如何针对大模型特定层进行混合精度量化：基于敏感度分析的自动策略分配在部署大语言模型（LLM）时，全量化（如统一 INT4）虽然能极大降低显存占用，但往往会导致模型在复杂逻辑推理上出现“降智”。由于模型不同层对精度的敏感度不同，混合精度量化...

2026-03-15andy阅读(13)评论(0)

如何通过 QLoRA 与 NF4 数据类型实现大模型低成本高效微调在大模型（LLM）落地过程中，算力成本始终是核心痛点。传统的全量参数微调（Full Fine-tuning）动辄需要数百GB显存，即便是 LoRA 技术，在处理 70B 级...

2026-03-15andy阅读(20)评论(0)

如何利用 FP8 量化突破端侧 LLM 推理瓶颈：对比 INT8 的精度优势在将大语言模型（LLM）部署到手机、边缘网关或国产 NPU 等端侧设备时，显存带宽和容量通常是最大的制约因素。为了压缩模型，INT8 量化曾是主流方案。然而，随着...

2026-03-14andy阅读(24)评论(0)

如何利用 GPTQ 与 AWQ 算法实现 LLM 4-bit 量化：原理剖析与端侧适配指南大语言模型（LLM）如 Llama 3、Qwen 等动辄数十亿的参数量，让移动端和边缘侧部署面临巨大的显存挑战。4-bit 量化技术通过将模型权重从...

2026-03-14andy阅读(19)评论(0)

如何通过修改 Cgroup 调度组提升 Android 端侧 AI 推理性能在 Android 端侧部署 AI 模型时，开发者常遇到一个棘手问题：推理任务在实验室测试时速度飞快，但在用户复杂的多任务场景下，推理延迟会剧烈波动。这往往是因为...

2026-03-13andy阅读(19)评论(0)

在移动端部署深度学习模型（如使用 MNN、NCNN 或 TFLite）时，开发者常遇到这样的困境：模型刚启动时推理飞快，但持续运行几分钟后，帧率骤降。这通常是由于安卓系统的温控系统（Thermal Service）为了保护硬件，强制降低了 ...

2026-03-13andy阅读(24)评论(0)

如何在 Android 端优雅处理 TFLite 模型动态尺寸推理而无需频繁重构计算图在移动端 AI 开发中，我们经常遇到输入尺寸不固定的场景，如 OCR 识别（文本行长度不一）、超分辨率（图片尺寸各异）或音频处理（时长不同）。传统的做法...

2026-03-12andy阅读(28)评论(0)

如何解决安卓多模型部署时的显存瓶颈：详解权重复用与Backbone共享技巧在安卓移动端部署 AI 能力时，开发者常面临「内存焦虑」。当你需要在一个 App 中同时运行人脸检测、五官定位和属性识别时，如果每个模型都包含独立的骨干网络（Bac...