深度学习

第2页

端侧 LLM 内存管理黑魔法：如何利用模型权重的分级加载与量化存储实现极致省电

2026-03-17andy阅读(16)评论(0)

如何利用分级加载与量化存储实现端侧 LLM 的极致省电与低内存占用在大模型（LLM）进军手机、平板和边缘网关的趋势下，内存（RAM）和功耗成了最大的绊脚石。一个 Llama-3-8B 模型如果以 FP16 运行需要约 16GB 内存，这足...

2026-03-17andy阅读(17)评论(0)

如何优化大模型首词延迟：详解预填充阶段的量化加速技巧在大语言模型（LLM）的部署实践中，首词延迟（Time to First Token, TTFT）是影响用户交互体验的核心指标。当用户输入较长的 Prompt 时，模型需要经历一个漫长的...

2026-03-16andy阅读(18)评论(0)

如何通过 PagedAttention 与分块量化结合：解决移动端内存碎片化导致的长文本 OOM 在移动端部署大语言模型（LLM）时，内存压力主要源于 KV Cache。随着对话长度增加，KV Cache 呈线性增长，且传统的连续内存分配方...

2026-03-16andy阅读(19)评论(0)

如何通过 INT4 KV Cache 量化大幅提升移动端 LLM 的多轮对话上限在大模型（LLM）落地移动端的过程中，内存占用是最大的瓶颈。除了模型权重（Weights）外，KV Cache 的增长直接决定了多轮对话的上下文长度上限。本文...

2026-03-16andy阅读(22)评论(0)

1. 为什么端侧模型需要 OmniQuant？在端侧（手机、嵌入式设备）部署大语言模型（LLM）或大型视觉模型时，量化（Quantization）是必不可少的。然而，传统的后量化（PTQ）方法（如简单的 Round-to-Nearest）...

2026-03-15andy阅读(23)评论(0)

如何针对大模型特定层进行混合精度量化：基于敏感度分析的自动策略分配在部署大语言模型（LLM）时，全量化（如统一 INT4）虽然能极大降低显存占用，但往往会导致模型在复杂逻辑推理上出现“降智”。由于模型不同层对精度的敏感度不同，混合精度量化...

2026-03-15andy阅读(24)评论(0)

如何通过 QLoRA 与 NF4 数据类型实现大模型低成本高效微调在大模型（LLM）落地过程中，算力成本始终是核心痛点。传统的全量参数微调（Full Fine-tuning）动辄需要数百GB显存，即便是 LoRA 技术，在处理 70B 级...

2026-03-15andy阅读(25)评论(0)

如何利用剪枝与量化协同优化：实现大模型参数量与存储空间的双重压缩实战在部署大语言模型（LLM）或大型深度学习模型时，巨大的存储占用和内存消耗往往是核心瓶颈。单一的优化技术（如仅剪枝或仅量化）有时难以满足端侧设备极低的算力要求。本文将介绍一...

2026-03-15andy阅读(37)评论(0)

如何利用 FP8 量化突破端侧 LLM 推理瓶颈：对比 INT8 的精度优势在将大语言模型（LLM）部署到手机、边缘网关或国产 NPU 等端侧设备时，显存带宽和容量通常是最大的制约因素。为了压缩模型，INT8 量化曾是主流方案。然而，随着...

2026-03-14andy阅读(31)评论(0)

1. 为什么 LLM 全量化这么难？在端侧部署大语言模型（LLM）时，W8A8（权重和激活均为8位）全量化是极致加速和节省内存的核心。然而，LLM 在推理时，激活值（Activations）中常会出现极少数数值巨大的“离群点”（Outli...