ai-infra

第7页

RDMA 与 RoCE v2 深度解析：为什么大模型训练离不开这种“零拷贝”网络

2026-02-04andy阅读(433)评论(0)

如何利用RDMA/RoCE v2实现大模型训练的极致加速：深度解析‘零拷贝’网络通信随着AI模型规模（如LLM）的爆炸式增长，分布式训练已成为常态。然而，传统的网络通信方式（基于TCP/IP）在多GPU节点间传输海量梯度和参数时，会造成严...

2026-02-04andy阅读(353)评论(0)

大型语言模型（LLM）的推理过程通常分为两个截然不同的计算阶段：预填充（Pre-fill）和生成（Decode）。这两个阶段的计算和资源需求特性存在巨大差异，如果在同一块GPU上混合执行，往往会导致资源利用率低下，尤其是在高并发的服务环境中...

2026-02-04andy阅读(411)评论(0)

大规模语言模型（LLM）的推理性能是部署成功的关键。在推理过程中，模型通常经历两个截然不同的阶段：Prefill（预填充/上下文处理）和Decode（解码/生成）。理解这两个阶段的资源需求和冲突，是优化吞吐量（Throughput）和首字节...

2026-02-04andy阅读(441)评论(0)

FlashAttention v1/v2 演进史：它是如何通过减少显存读写让速度飞起来的自Transformer架构诞生以来，Attention机制一直是其核心但也是性能瓶颈所在。当序列长度 $N$ 增大时，标准Attention的计算复...

2026-02-03andy阅读(689)评论(0)

投机采样（Speculative Decoding）详解：用小模型带路给大模型加速的黑科技随着大型语言模型（LLM）的尺寸不断增大，推理速度成为了制约其广泛应用的关键瓶颈。标准的自回归（Autoregressive）采样模式要求模型每生成...

2026-02-03andy阅读(363)评论(0)

在现代大型语言模型（LLMs）和基于 Transformer 架构的模型中，性能优化是提高服务吞吐量（QPS，Queries Per Second）的关键。其中一个最有效的策略是算子融合（Operator Fusion）。本文将深入探讨为什...

2026-02-03andy阅读(400)评论(0)

在大型语言模型（LLM）部署和推理服务中，吞吐量（Throughput）是衡量服务效率的关键指标。传统的静态批处理（Static Batching, SB）方法在处理高并发请求时暴露出了严重的效率问题。而近年来，以vLLM为代表的框架所采用...

2026-02-03andy阅读(417)评论(0)

大规模语言模型（LLM）在推理阶段面临的一个核心挑战是如何高效管理巨大的 Key-Value Cache（KV Cache）。KV Cache 存储了Attention机制中K(Key)和V(Value)矩阵的历史记录，对于长序列推理至关重...

2026-02-02andy阅读(352)评论(0)

大型语言模型（LLM）在生成文本时采用自回归（Autoregressive）方式，即逐词生成。虽然这种方式保证了生成内容的连贯性，但也带来了严重的性能挑战，尤其是在长序列生成时。核心问题在于Transformer模型中的自注意力（Self-...

2026-02-02andy阅读(292)评论(0)

异构计算（Heterogeneous Computing）指的是在同一系统中使用不同类型的处理器（如 CPU、GPU、TPU 等）协同工作来完成任务。在深度学习训练中，最常见的异构模式就是让多核 CPU 专注于数据加载、预处理和增强（I/O...