ai-infra

第2页

别只知道 FlashAttention：带你算算 Attention 算子在不同 QKV 维度下的显存读写比例。

2026-02-15andy阅读(70)评论(0)

别只知道 FlashAttention 的效果好，理解其背后的原理——解决显存带宽瓶颈——对于优化深度学习模型至关重要。标准 Self-Attention 机制在序列长度 $L$ 较大时，其性能瓶颈并非是计算量（FLOPs），而是显存的读写...

2026-02-15andy阅读(67)评论(0)

作为架构师，支撑百万级的并发长文本（如大模型推理）请求，同时保证低延时，是一个极具挑战性的任务。长文本推理的挑战在于：推理时间长（Token生成速度慢），且显存消耗大（KV Cache占用）。纯粹的增加服务器并不能解决根本问题，我们需要一套...

2026-02-15andy阅读(107)评论(0)

vLLM（Virtual Large Language Model）框架凭借其创新的内存管理技术 PagedAttention，极大地提升了LLM推理的吞吐量和效率。PagedAttention借鉴了传统操作系统中的虚拟内存和分页思想，核心...

2026-02-14andy阅读(84)评论(0)

在大型语言模型（LLM）的推理过程中，通常分为两个关键阶段：Prefill（预填充/处理Prompt）阶段和Decode（解码/自回归生成）阶段。这两个阶段对硬件资源的需求截然不同，理解它们的瓶颈对于优化推理性能至关重要。 1. 概念定义：...

2026-02-14andy阅读(90)评论(0)

为什么 VRAM 成为大模型训练的瓶颈？在训练参数量巨大的模型（如 Llama-2 70B）时，即使是顶级的GPU（如A100或H100）也面临着显存（VRAM）不足的问题。一个完整的模型训练状态需要存储以下核心组件：模型参数 (P)：...

2026-02-14andy阅读(67)评论(0)

在同步分布式训练（如 PyTorch DDP）中，最主要的性能瓶颈之一是梯度同步操作 All-Reduce 导致的等待时间。当一台 GPU 完成反向传播并计算出所有梯度后，它必须等待所有其他 GPU 完成相同的操作，然后才能进行梯度聚合。利...

2026-02-14andy阅读(74)评论(0)

在深度学习模型训练过程中，Checkpoint（检查点）是至关重要的，它记录了模型权重、优化器状态、学习率调度器状态等，用于断点续训。面试官提出的“比特翻转”问题，指的是硬件故障（如内存、磁盘或传输中的电磁干扰）导致数据中的单个或多个位发生...

2026-02-13andy阅读(79)评论(0)

Megatron-LM是NVIDIA开发的一个用于训练超大规模Transformer模型的框架。它通过组合三种并行技术（数据并行DP、张量并行TP、流水线并行PP）实现了高效的3D并行策略。对于希望配置和优化LLM训练的用户来说，理解TP和...

2026-02-13andy阅读(90)评论(0)

在分布式深度学习训练中，尤其是在使用数据并行（Data Parallel，如PyTorch DDP或Horovod）时，我们常常追求训练速度与GPU数量的线性扩展。但在使用标准万兆以太网（10GbE）作为节点间通信主干时，一旦GPU数量增加...

2026-02-13andy阅读(96)评论(0)

作为AI基础设施（AI Infra）工程师，我们面临的核心挑战是如何在PyTorch、TensorFlow、JAX等算法框架日新月异、依赖库爆炸式增长的背景下，维护一套稳定、高效且“长青”的底层平台。核心思路是：将快速变化的算法层与相对稳定...