ai-infra

第6页

车载 NPU 通信总线：对比 HCCL 与 NCCL 在国产化替代中的兼容性挑战

2026-02-05andy阅读(173)评论(0)

在自动驾驶和智能座舱系统中，高性能车载计算平台通常依赖多个NPU（神经网络处理器）进行并行计算。这些NPU之间高效的数据交换是实现分布式训练和推理加速的关键，而集体通信库（Collective Communication Libraries...

2026-02-05andy阅读(127)评论(0)

在大型分布式训练集群中，硬件故障是不可避免的。当一台机器的网卡（NIC）突然损坏时，这意味着该节点将无法参与通信，这对于依赖高效同步的分布式训练（如PyTorch DDP或TensorFlow MirroredStrategy）来说是致命的...

2026-02-05andy阅读(200)评论(0)

在分布式训练，尤其是深度学习模型的分布式训练中，高效的节点间通信是性能的关键。All-Reduce、All-Gather 和 Reduce-Scatter 是最核心的三种集体通信原语（Collective Communication Pri...

2026-02-04andy阅读(172)评论(0)

如何利用RDMA/RoCE v2实现大模型训练的极致加速：深度解析‘零拷贝’网络通信随着AI模型规模（如LLM）的爆炸式增长，分布式训练已成为常态。然而，传统的网络通信方式（基于TCP/IP）在多GPU节点间传输海量梯度和参数时，会造成严...

2026-02-04andy阅读(142)评论(0)

大型语言模型（LLM）的推理过程通常分为两个截然不同的计算阶段：预填充（Pre-fill）和生成（Decode）。这两个阶段的计算和资源需求特性存在巨大差异，如果在同一块GPU上混合执行，往往会导致资源利用率低下，尤其是在高并发的服务环境中...

2026-02-04andy阅读(150)评论(0)

大规模语言模型（LLM）的推理性能是部署成功的关键。在推理过程中，模型通常经历两个截然不同的阶段：Prefill（预填充/上下文处理）和Decode（解码/生成）。理解这两个阶段的资源需求和冲突，是优化吞吐量（Throughput）和首字节...

2026-02-04andy阅读(182)评论(0)

FlashAttention v1/v2 演进史：它是如何通过减少显存读写让速度飞起来的自Transformer架构诞生以来，Attention机制一直是其核心但也是性能瓶颈所在。当序列长度 $N$ 增大时，标准Attention的计算复...

2026-02-03andy阅读(244)评论(0)

投机采样（Speculative Decoding）详解：用小模型带路给大模型加速的黑科技随着大型语言模型（LLM）的尺寸不断增大，推理速度成为了制约其广泛应用的关键瓶颈。标准的自回归（Autoregressive）采样模式要求模型每生成...

2026-02-03andy阅读(143)评论(0)

在现代大型语言模型（LLMs）和基于 Transformer 架构的模型中，性能优化是提高服务吞吐量（QPS，Queries Per Second）的关键。其中一个最有效的策略是算子融合（Operator Fusion）。本文将深入探讨为什...

2026-02-03andy阅读(139)评论(0)

在大型语言模型（LLM）部署和推理服务中，吞吐量（Throughput）是衡量服务效率的关键指标。传统的静态批处理（Static Batching, SB）方法在处理高并发请求时暴露出了严重的效率问题。而近年来，以vLLM为代表的框架所采用...