ai-infra

第7页

PageAttention 详解：vLLM 是如何借用操作系统的分页思想解决显存碎片的

2026-02-03andy阅读(167)评论(0)

大规模语言模型（LLM）在推理阶段面临的一个核心挑战是如何高效管理巨大的 Key-Value Cache（KV Cache）。KV Cache 存储了Attention机制中K(Key)和V(Value)矩阵的历史记录，对于长序列推理至关重...

2026-02-02andy阅读(144)评论(0)

大型语言模型（LLM）在生成文本时采用自回归（Autoregressive）方式，即逐词生成。虽然这种方式保证了生成内容的连贯性，但也带来了严重的性能挑战，尤其是在长序列生成时。核心问题在于Transformer模型中的自注意力（Self-...

2026-02-02andy阅读(131)评论(0)

异构计算（Heterogeneous Computing）指的是在同一系统中使用不同类型的处理器（如 CPU、GPU、TPU 等）协同工作来完成任务。在深度学习训练中，最常见的异构模式就是让多核 CPU 专注于数据加载、预处理和增强（I/O...

2026-02-02andy阅读(162)评论(0)

在PyTorch分布式数据并行（DDP）训练中，性能瓶颈往往出现在不同进程之间的梯度同步环节。为了高效地聚合梯度，DDP引入了“梯度桶”（Gradient Buckets）机制，这不仅减少了通信延迟，还实现了计算与通信的重叠（Overlap...

2026-02-02andy阅读(155)评论(0)

梯度检查点（Checkpointing Recomputation）：用时间换空间的终极手段随着深度学习模型规模的爆炸式增长，特别是大型语言模型（LLMs）的出现，训练过程中 GPU 显存不足（OOM, Out Of Memory）成为了...

2026-02-01andy阅读(252)评论(0)

混合精度训练（Mixed Precision Training）是现代深度学习模型训练中常用的优化手段。通过将模型的大部分计算转移到半精度浮点数（FP16）进行，而保持关键部分（如权重更新）使用全精度浮点数（FP32），可以显著提高训练速度...

2026-02-01andy阅读(205)评论(0)

张量并行（Tensor Parallelism, TP）是大型语言模型（LLMs）训练和推理中必不可少的优化技术，它通过在不同设备（如GPU）上切分模型的权重张量来扩展计算能力。在Transformer架构中，Attention层和MLP层...

2026-02-01andy阅读(215)评论(0)

导语：为什么流水线并行会产生“气泡”？在训练超大规模深度学习模型时（如GPT系列），单个GPU的显存往往无法容纳整个模型。我们不得不采用模型并行策略，其中，流水线并行（Pipeline Parallelism, PP）是一种常用的方法，它...

2026-02-01andy阅读(155)评论(0)

在深度学习的训练过程中，Batch Size（批次大小）是一个至关重要的超参数。通常情况下，更大的 Batch Size 能够提供更准确的梯度估计，有助于模型收敛到更优的解。然而，当模型参数量巨大或输入数据维度极高时，有限的显存（VRAM）...

2026-01-31andy阅读(159)评论(0)

为什么 ZeRO-3 能让单卡跑起“塞不下”的模型？随着大语言模型（LLM）的尺寸不断膨胀，GPU的显存往往成为训练过程中的最大瓶颈。一个1750亿参数的模型（如GPT-3），即使使用混合精度（FP16/BF16），仅参数、梯度和优化器状...