深度学习

第7页

移动端 LLM 精度评测盲点：为什么传统的困惑度（Perplexity）不能完全代表用户体验

2026-03-19andy阅读(261)评论(0)

如何通过构建端侧评测流水线解决LLM精度评测盲点：从困惑度（PPL）转向真实体验在移动端部署大语言模型（LLM）时，开发者通常依赖困惑度（Perplexity, PPL）来衡量模型量化（如 INT4, FP8）后的精度损失。然而，许多开发...

2026-03-19andy阅读(246)评论(0)

如何通过手机 NPU 加速 4-bit 模型推理：详解权重预重排（Weight Pre-packing）的必要性在移动端部署大语言模型（LLM）或高性能视觉模型时，4-bit 量化已成为标配。然而，许多开发者发现，仅仅将模型量化为 4-b...

2026-03-18andy阅读(602)评论(0)

前言随着大语言模型（LLM）的普及，将模型部署在手机端（端侧推理）成为了趋势。llama.cpp 作为一个高性能的 C++ 推理库，通过极致的指令集优化和轻量级的 GGUF 格式，让在手机上流畅运行 Llama-3 成为可能。本文将重点介...

2026-03-18andy阅读(290)评论(0)

如何利用信令位（Signaling Bits）优化低比特量化：提升移动端模型数值稳定性在移动端部署 AI 模型时，INT4 甚至 INT2 量化是减少内存带宽和提升推理速度的利器。然而，低比特量化面临最大的挑战是数值稳定性。当权重或激活值...

2026-03-18andy阅读(285)评论(0)

如何通过算子融合减少解量化开销：详解在移动端将 Dequant 与 MatMul 合并的技巧在移动端部署深度学习模型时，为了追求极致的推理速度和更小的模型体积，INT8 量化几乎是标配。然而，很多开发者在实际部署时发现，虽然权重变成了 I...

2026-03-17andy阅读(294)评论(0)

前言在安卓端侧部署大语言模型（LLM）时，内存带宽往往是最大的瓶颈。4-bit 量化（INT4）可以将权重体积减少 75%，但如果我们在推理前先用 CPU 或 GPU 算子将其还原为 FP16，会产生额外的显存读写开销。本文将教你如何编...

2026-03-17andy阅读(318)评论(0)

如何利用分级加载与量化存储实现端侧 LLM 的极致省电与低内存占用在大模型（LLM）进军手机、平板和边缘网关的趋势下，内存（RAM）和功耗成了最大的绊脚石。一个 Llama-3-8B 模型如果以 FP16 运行需要约 16GB 内存，这足...

2026-03-16andy阅读(319)评论(0)

如何通过 PagedAttention 与分块量化结合：解决移动端内存碎片化导致的长文本 OOM 在移动端部署大语言模型（LLM）时，内存压力主要源于 KV Cache。随着对话长度增加，KV Cache 呈线性增长，且传统的连续内存分配方...

2026-03-16andy阅读(353)评论(0)

如何通过 INT4 KV Cache 量化大幅提升移动端 LLM 的多轮对话上限在大模型（LLM）落地移动端的过程中，内存占用是最大的瓶颈。除了模型权重（Weights）外，KV Cache 的增长直接决定了多轮对话的上下文长度上限。本文...

2026-03-16andy阅读(282)评论(0)

1. 为什么端侧模型需要 OmniQuant？在端侧（手机、嵌入式设备）部署大语言模型（LLM）或大型视觉模型时，量化（Quantization）是必不可少的。然而，传统的后量化（PTQ）方法（如简单的 Round-to-Nearest）...