LLM推理优化实战：从KV-Cache到Continuous Batching的技术演进与代码实现

Table of Contents

引言：为什么LLM推理优化如此重要？

随着大语言模型（LLM）的广泛应用，从ChatGPT到开源模型的遍地开花，LLM的推理效率已成为制约AI落地的关键瓶颈。训练好一个模型只是第一步，如何让它在生产环境中以低成本、低延迟运行，才是真正的挑战。Gartner预测到2026年，超过80%的企业将在生产环境中部署LLM应用，但推理成本仍然是最大的障碍。

本文将从底层技术原理出发，深入剖析LLM推理优化的核心技术栈，包括KV-Cache、PageAttention、Speculative Decoding、Flash Attention和Continuous Batching，并提供实际的代码示例和性能对比数据，帮助你构建高性能的LLM推理服务。

AI 芯片与推理优化概念图

一、KV-Cache：自回归解码的核心优化

1.1 Transformer解码的数学本质

自回归解码是LLM生成文本的基本方式：模型逐个生成token，每个新token都依赖之前所有token的上下文。在标准的Transformer架构中，每个解码步骤都需要计算当前序列中所有token的注意力权重。这导致了O(N²)的计算复杂度——每一步的计算量随序列长度线性增长。

具体来说，在注意力机制中，对于第t步解码，需要计算：


1
2
3
4
5
6
7
8
9
# 注意力计算的简化伪代码

def attention_step(query, key, value):

    # query: [1, d] (当前token)

    # key: [t, d] (所有之前的token)

    # value: [t, d] (所有之前的token)

    scores = query @ key.T  # [1, t]

    weights = softmax(scores / sqrt(d))

    output = weights @ value  # [1, d]

    return output

每次解码第t+1个token时，前t个token的Key和Value矩阵其实和上一次计算时完全一样。但标准的实现会重新计算它们——这就是浪费的来源。

1.2 KV-Cache的核心思想

KV-Cache的核心洞察极其简单：将之前解码步骤中计算好的Key和Value矩阵缓存起来，下次解码时直接复用，而不是重新计算。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
class KVCache:

    """简化的KV-Cache实现"""

    def __init__(self):

        self.key_cache = []   # 缓存Key矩阵

        self.value_cache = []  # 缓存Value矩阵

    

    def update(self, key, value):

        # key, value: [batch_size, num_heads, seq_len, head_dim]

        self.key_cache.append(key)

        self.value_cache.append(value)

    

    def get(self):

        # 沿着seq_len维度拼接

        keys = torch.cat(self.key_cache, dim=2)

        values = torch.cat(self.value_cache, dim=2)

        return keys, values



# 使用KV-Cache的解码过程

def decode_with_kv_cache(model, input_ids, max_new_tokens=100):

    kv_cache = KVCache()

    generated = input_ids.clone()

    

    for step in range(max_new_tokens):

        if step == 0:

            # 第一步：处理所有输入token

            outputs = model(generated, use_cache=True)

        else:

            # 后续步骤：只处理最后一个token

            outputs = model(generated[:, -1:], use_cache=True, past_key_values=kv_cache)

        

        next_token = sample_from_logits(outputs.logits[:, -1, :])

        generated = torch.cat([generated, next_token], dim=1)

        

        # 更新KV-Cache（模型内部自动处理）

        kv_cache = outputs.past_key_values

    

    return generated

使用KV-Cache后，计算复杂度从O(N³)降低到O(N²)，因为第t步只需要O(t)的注意力计算，而不是O(t²)。在实际测试中，KV-Cache可以将推理速度提升5-10倍，对于长文本生成场景效果尤为显著。

1.3 KV-Cache的内存挑战

KV-Cache虽然大幅提升了计算效率，但它带来了巨大的内存压力。以一个70B参数的LLM为例：

参数	值
模型参数	70B (70 billion)
层数 (L)	80
注意力头数 (H)	64
每头维度 (D)	128
KV-Cache per token (单层)	2 × 64 × 128 × 2 bytes (FP16) = 32,768 bytes
KV-Cache per token (全层)	80 × 32,768 = 2.5 MB
4K上下文 (per request)	2.5 MB × 4096 = 10 GB
32K上下文 (per request)	2.5 MB × 32768 = 80 GB

可见，对于长上下文场景，KV-Cache的内存占用可以达到数十GB。这对于GPU显存（通常24-80GB）来说是一个巨大的挑战。

二、PageAttention与vLLM：解决KV-Cache内存碎片化

2.1 传统KV-Cache的内存管理问题

在传统的推理框架中，KV-Cache被预分配为连续的内存块，大小基于最大序列长度。这导致两个严重问题：

内部碎片：大部分请求的实际序列长度远小于最大值，预分配的内存被浪费
外部碎片：不同请求的生命周期不同，释放的内存块大小不一，难以被后续请求有效利用

Kwon等人（2023）的研究表明，在典型工作负载下，传统KV-Cache的内存利用率仅为20%-40%。

2.2 PageAttention：操作系统的分页思想

vLLM项目提出的PageAttention借鉴了操作系统虚拟内存的分页思想。将KV-Cache划分为固定大小的块（Block），每个Block包含固定数量token的KV值。请求的KV-Cache不再需要连续的内存空间，而是通过块表（Block Table）映射到物理块。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
class PageAttentionBlock:

    """PageAttention的块管理"""

    BLOCK_SIZE = 16  # 每个块存储16个token的KV值

    

    def __init__(self, num_layers, num_heads, head_dim):

        self.num_layers = num_layers

        self.num_heads = num_heads

        self.head_dim = head_dim

        # 物理块存储

        self.physical_blocks = {}  # block_id -> tensor

    

    def allocate_block(self):

        block_id = len(self.physical_blocks)

        # 为所有层分配一块连续内存

        block_tensor = torch.zeros(

            self.num_layers, 2, self.BLOCK_SIZE, 

            self.num_heads, self.head_dim,

            dtype=torch.float16

        )

        self.physical_blocks[block_id] = block_tensor

        return block_id



class RequestBlockTable:

    """每个请求的块表（类似虚拟内存的页表）"""

    def __init__(self):

        self.logical_to_physical = {}  # 逻辑块ID -> 物理块ID

        self.num_tokens = 0

    

    def append_token(self, physical_block_id):

        logical_block_id = self.num_tokens // PageAttentionBlock.BLOCK_SIZE

        self.logical_to_physical[logical_block_id] = physical_block_id

        self.num_tokens += 1

    

    def get_physical_block(self, logical_block_id):

        return self.logical_to_physical.get(logical_block_id)

PageAttention的另一个关键创新是Copy-on-Write：当多个请求共享同一个prompt的前缀时（如系统提示词），它们的KV-Cache可以共享相同物理块，直到有请求需要修改该块时才进行复制。

2.3 vLLM的实战表现

根据vLLM官方基准测试，相比HuggingFace Transformers的原始实现，vLLM可以实现：

吞吐量提升8-12倍
内存利用率从~30%提升到~90%
在相同的GPU上支持2-3倍的并发请求数

三、Flash Attention：让注意力计算不再受内存带宽限制

3.1 标准注意力计算的计算瓶颈

标准注意力计算中，Scores矩阵S = Q × K^T的大小为N×N，对于长序列（如32K tokens），Scores矩阵需要32K×32K×2字节 = 2GB的显存。频繁地将这么大的矩阵从HBM（高带宽内存）读到SRAM（片上缓存）再写回，造成了严重的IO瓶颈。

Dao等人（2022）的经典论文指出，在标准注意力计算中，GPU的计算单元大部分时间处于空闲状态，等待数据从HBM传输——这就是所谓的”内存墙”问题。

3.2 Flash Attention的tiling算法

Flash Attention的核心思想是将Q、K、V矩阵分块（Tiling），在SRAM中完成子块的计算，避免将中间结果写回HBM：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
# Flash Attention的简化伪代码

def flash_attention(Q, K, V, block_size=128):

    """

    Q, K, V: [N, d] 

    分批在SRAM中计算，避免O(N²)的中间矩阵写回HBM

    """

    N = Q.shape[0]

    output = torch.zeros_like(Q)

    

    # 将Q分成块

    for i in range(0, N, block_size):

        Qi = Q[i:i+block_size]  # 加载到SRAM

        Oi = torch.zeros_like(Qi)

        mi = torch.full((block_size,), -float('inf'))

        li = torch.zeros(block_size)

        

        # 将K, V分成块

        for j in range(0, N, block_size):

            Kj = K[j:j+block_size]  # 加载到SRAM

            Vj = V[j:j+block_size]  # 加载到SRAM

            

            # 在SRAM中计算子块注意力

            Sij = Qi @ Kj.T / sqrt(d)  # SRAM操作

            mij = torch.max(Sij, dim=1)

            Pij = exp(Sij - mij)

            lij = sum(Pij, dim=1)

            

            # Online softmax - 关键创新

            mi_new = torch.maximum(mi, mij)

            Oi = Oi * exp(mi - mi_new) + Pij * exp(mij - mi_new) @ Vj

            li = li * exp(mi - mi_new) + lij * exp(mij - mi_new)

            mi = mi_new

        

        output[i:i+block_size] = Oi / li

    

    return output

Flash Attention的Online Softmax是关键创新——它在不写出完整注意力矩阵的前提下，通过分块累积的方式正确计算了softmax归一化。这使得注意力计算的HBM访问量从O(N²)降低到O(N²/d)（d是head_dim，通常64-128）。

Flash Attention 2（2023年）进一步减少了非计算操作（如rescale），并优化了线程束级别的并行度，实现了约2倍的加速。

Flash Attention 3（2024年）利用Hopper架构的FP8张量核心和异步拷贝指令，又在Flash Attention 2的基础上提升了1.5-2倍。

四、Speculative Decoding：让大模型”猜”得更快

4.1 自回归解码的”串行瓶颈”

自回归解码每个token都要跑一次完整的前向传播，而GPU对批量计算的效率远高于单token计算。但解码过程本质上是串行的——我们必须等tokenₜ生成后才能计算tokenₜ₊₁。这导致GPU利用率极低。

4.2 Speculative Decoding的核心思想

Speculative Decoding（投机解码）使用一个小的”草稿模型”（Draft Model）快速生成多个候选token，然后用大模型（Target Model）并行验证这些token是否正确。如果草稿模型的预测准确，就可以一次生成多个token，大幅提升解码速度。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
class SpeculativeDecoder:

    """投机解码的简化实现"""

    def __init__(self, target_model, draft_model, gamma=5):

        self.target = target_model  # 大模型（如70B）

        self.draft = draft_model    # 小模型（如7B）

        self.gamma = gamma           # 每次投机生成的候选数

    

    def generate(self, input_ids, max_new_tokens=100):

        generated = input_ids.clone()

        

        while len(generated) < max_new_tokens:

            # 阶段1：草稿模型快速生成gamma个候选token

            draft_tokens = []

            draft_hidden = input_ids

            for _ in range(self.gamma):

                logits = self.draft(draft_hidden)

                next_token = sample_top_k(logits[:, -1, :], k=20)

                draft_tokens.append(next_token)

                draft_hidden = torch.cat([draft_hidden, next_token], dim=1)

            

            # 阶段2：大模型并行验证所有候选token

            target_logits = self.target(

                torch.cat([generated] + draft_tokens, dim=1)

            )

            

            # 阶段3：逐token对比，接受正确预测

            accepted = 0

            for i, draft_token in enumerate(draft_tokens):

                target_prob = softmax(target_logits[:, generated.shape[1]+i, :])

                draft_prob = softmax(self.draft.output_logits[:, i, :])

                

                # 拒绝采样：接受概率 = min(1, target_prob / draft_prob)

                accept_prob = min(1, target_prob[0, draft_token] / draft_prob[0, draft_token])

                if random.random() < accept_prob:

                    generated = torch.cat([generated, draft_token], dim=1)

                    accepted += 1

                else:

                    # 从修正分布中重新采样

                    corrected_prob = max(0, target_prob - draft_prob)

                    corrected_token = sample_from_probs(corrected_prob)

                    generated = torch.cat([generated, corrected_token], dim=1)

                    break

            

            if accepted == self.gamma:

                # 全部接受，还可以额外生成一个token

                next_token = sample_from_logits(target_logits[:, -1, :])

                generated = torch.cat([generated, next_token], dim=1)

        

        return generated

4.3 实战性能提升

Speculative Decoding的效果取决于草稿模型与目标模型的”一致性”。在实践中，使用同系列较小模型作为草稿模型（如用7B模型为70B模型做草稿），在代码生成和数学推理等任务上可以达到

1.5x – 2.5x的解码速度提升
输出结果与原始模型完全一致（数学上保证无偏采样）
无需修改目标模型架构

五、Continuous Batching：动态调度最大化吞吐量

5.1 静态Batching的局限性

传统的推理系统采用静态Batching：收集一批请求，等待所有请求都到达后，统一执行前向传播。但LLM的请求具有高度动态性——不同请求的输入长度、输出长度各不相同。静态Batching导致：

短请求等待长请求，增加尾延迟
先完成的请求必须等待整批处理结束后才能返回
GPU利用率波动大

5.2 Continuous Batching的工作原理

Continuous Batching（连续批处理）的核心思想是”迭代级调度”（Iteration-level Scheduling）。在每个解码步骤中，调度器动态选择一批ready的请求执行一次前向传播，然后将完成的请求移出批次，再添加新的请求。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
class ContinuousBatchingScheduler:

    """连续批处理调度器简化实现"""

    def __init__(self, max_batch_size=64):

        self.max_batch_size = max_batch_size

        self.active_requests = []

        self.pending_queue = []

    

    def add_request(self, request):

        self.pending_queue.append(request)

    

    def schedule_iteration(self):

        """每个解码步骤的调度"""

        batch = []

        

        # 1. 首先保留未完成的活跃请求

        for req in self.active_requests:

            if not req.is_finished():

                batch.append(req)

        

        # 2. 从等待队列中补充新请求到最大批次大小

        while len(batch) < self.max_batch_size and self.pending_queue:

            new_req = self.pending_queue.pop(0)

            new_req.initialize_kv_cache()

            batch.append(new_req)

        

        # 3. 执行一次前向传播

        model.forward(batch)

        

        # 4. 处理结果

        for req in batch:

            req.step()  # 生成下一个token

            if req.is_finished():

                self.finalize_request(req)

                req.free_kv_cache()  # 释放KV-Cache

        

        self.active_requests = batch

这种调度方式带来了巨大的效率提升：

GPU利用率从30%提升到85%以上
P50延迟降低40-60%
吞吐量提升2-4倍

六、综合实战：使用vLLM部署高性能推理服务

6.1 vLLM概述

vLLM是目前最流行的开源LLM推理引擎，它集成了上述所有优化技术：

PageAttention管理KV-Cache
Continuous Batching动态调度
优化的CUDA内核
支持PREFIX CACHING（前缀缓存）
支持FP8/INT4/INT8量化

6.2 部署实战


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
# 安装vLLM

pip install vllm



# 启动OpenAI兼容的API服务

python -m vllm.entrypoints.openai.api_server \

    --model Qwen/Qwen2.5-72B-Instruct \

    --tensor-parallel-size 4 \

    --gpu-memory-utilization 0.90 \

    --max-model-len 32768 \

    --enable-prefix-caching \

    --kv-cache-dtype fp8 \

    --max-num-seqs 256



# 调用API

curl http://localhost:8000/v1/chat/completions \

  -H "Content-Type: application/json" \

  -d '{

    "model": "Qwen/Qwen2.5-72B-Instruct",

    "messages": [{"role": "user", "content": "解释连续批处理的原理"}],

    "max_tokens": 1024,

    "temperature": 0.7

  }'

6.3 性能调优参数详解

参数	推荐值	说明
tensor-parallel-size	GPU数量	张量并行度，推荐4-8卡
gpu-memory-utilization	0.85-0.95	预留部分内存给模型权重和临时计算
max-model-len	32768	支持长上下文，但会占用更多KV-Cache内存
enable-prefix-caching	true	共享前缀的请求可以复用KV-Cache
kv-cache-dtype	fp8	使用FP8精度减少KV-Cache内存，H100支持
max-num-seqs	128-256	最大并发序列数，受显存限制

七、推理优化的未来趋势

LLM推理优化领域正在快速发展，以下几个方向值得关注：

7.1 推测解码的进阶版

Lookahead Decoding、Medusa（给LLM添加多个预测头）、Eagle等新方法进一步提升了投机解码的效率，部分方案可以实现3-4倍的加速。

7.2 稀疏注意力

随着上下文窗口扩展到百万token级别，Flash Attention的O(N²/d)复杂度仍然太高。稀疏注意力（如MQA、GQA、Sliding Window Attention、H2O等）通过限制注意力范围或动态选择重要token，将计算量降低到O(N)级别。

7.3 模型量化

FP4和INT2量化、AWQ/GPTQ等权重压缩技术的组合使用，可以让同一个GPU运行2-3倍更大的模型，或同一模型减少50%以上的推理延迟。

总结

LLM推理优化是一个系统工程，涉及算法、系统和硬件的协同设计。KV-Cache解决了重复计算的浪费，PageAttention解决了内存碎片化的问题，Flash Attention打破了内存带宽的瓶颈，Speculative Decoding绕过了串行解码的限制，Continuous Batching提升了GPU的利用率——每一项技术都在不同维度上推动着推理效率的边界。

在实际生产中，这些技术往往是组合使用的。vLLM、TensorRT-LLM、SGLang等主流推理框架已经将这些优化内化为默认配置。理解它们的工作原理不仅能帮助你更好地使用这些框架，也能在遇到性能瓶颈时做出正确的诊断和调优决策。

如果你正在为你的AI应用搭建推理服务，建议从vLLM开始，配合上述调优参数，根据实际负载进行测试和调整。随着硬件（如NVIDIA B200、AMD MI350）和算法的持续进步，LLM推理的成本正在快速下降，AI应用的规模化部署前景十分广阔。