标签：cache

端侧大模型部署详解：如何利用 4-bit 量化与 KV Cache 优化在手机上跑通 Llama

2026-02-16andy阅读(99)评论(0)

随着大模型（LLM）的飞速发展，将这些强大的AI能力部署到资源受限的手机等端侧设备上，成为了AI工程化的一大挑战。Llama系列模型虽然效果优秀，但其巨大的参数量和高昂的内存需求，使得直接部署几乎不可能。本文将详细讲解如何通过4-bit量化...

2026-02-02andy阅读(90)评论(0)

大型语言模型（LLM）在生成文本时采用自回归（Autoregressive）方式，即逐词生成。虽然这种方式保证了生成内容的连贯性，但也带来了严重的性能挑战，尤其是在长序列生成时。核心问题在于Transformer模型中的自注意力（Self-...

2026-02-01andy阅读(109)评论(0)

在汽车智能座舱环境中，部署多模态大模型（如处理语音、视觉和文本的VLM/LLM）是提升用户体验的关键。然而，座舱系统通常对硬件资源（尤其是GPU/NPU的显存）具有严格的限制。当用户进行长时间的连续对话时，大模型用于存储历史信息的KV Ca...

2026-01-29andy阅读(158)评论(0)

在深度学习模型的训练和推理过程中，尤其是在使用PyTorch时，我们经常会遇到一个棘手的问题：明明通过 nvidia-smi 看到显存（GPU Memory）还有剩余，但在尝试分配新的大张量时却报出了 OOM（Out of Memory）错...

2026-01-06andy阅读(127)评论(0)

引言：为什么传统部署方法无法应对LLM的流量高峰？大型语言模型（LLM）的部署面临两大核心挑战：低延迟（用户响应时间）和高吞吐量（每秒处理的总请求数）。传统的推理框架，如基于标准的Hugging Face Transformers，在处理...

2025-11-20andy阅读(331)评论(0)

引言：为什么KV Cache是LLM推理的生命线？对于自回归（Autoregressive）的Transformer模型，特别是大型语言模型（LLMs），推理延迟主要发生在解码阶段。每生成一个新的Token，模型必须回顾所有历史Token...