ai-infra

第4页

MOE 混合专家模型 Infra 挑战：如何处理路由（Router）带来的负载不均与显存开销

2026-02-10andy阅读(156)评论(0)

混合专家模型（Mixture-of-Experts, MoE）通过稀疏激活实现模型扩展，显著提升了参数量和训练效率。然而，其核心组件——路由器（Router）——在将输入Token分配给不同专家（Expert）时，带来了两大基础设施挑战：专...

2026-02-10andy阅读(99)评论(0)

存算一体架构（CIM）：AI算力下一阶段的性能飞跃还是工程挑战？随着AI模型（尤其是大语言模型和Transformer架构）的规模爆炸式增长，对算力的需求也急剧上升。然而，传统的冯·诺依曼（Von Neumann）架构正在成为限制AI加速...

2026-02-10andy阅读(192)评论(0)

在深度学习模型优化，尤其是移动端（如高通Adreno NPU、华为Ascend NPU等）部署时，我们通常认为1×1卷积（点卷积）由于其极少的浮点运算量（FLOPs）理应比3×3卷积快得多。然而，在实际的NPU性能测试中...

2026-02-09andy阅读(175)评论(0)

在大规模数据中心集群中，网络拓扑通常采用多级架构（如Fat-Tree或Spine-Leaf），跨越不同交换机（尤其是跨越核心交换机）的通信，相比同一交换机下的通信，往往具有更高的延迟和更大的带宽开销。对于需要高频、低延迟通信的应用（如分布式...

2026-02-09andy阅读(90)评论(0)

Megatron-LM是由NVIDIA开发的一套用于训练超大规模语言模型的框架。随着模型参数量突破万亿级别，任何单一的并行技术都难以高效地在有限的硬件资源上完成训练。Megatron-LM通过巧妙地结合三种主要的并行策略——张量并行（Ten...

2026-02-09andy阅读(129)评论(0)

深度学习模型训练过程中，如果发现训练损失（Loss）突然飙升并变为NaN（Not a Number），通常标志着梯度爆炸或数值溢出。虽然直接的数值问题需要ML工程师从模型结构、学习率、或数据预处理层面解决，但作为Infra（基础设施）工程师...

2026-02-09andy阅读(159)评论(0)

在现代深度学习分布式训练中，NVIDIA Collective Communications Library (NCCL) 是实现高性能 GPU 间通信的核心工具。NCCL 提供了多种通信算法来优化 All-Reduce、Broadcast...

2026-02-08andy阅读(180)评论(0)

在深度学习和高性能计算领域，算子（Kernel）的性能往往是模型推理速度的瓶颈。虽然像 cuBLAS 和 cuDNN 这样的厂商原生库已经高度优化，但它们是通用性的。当面对特定维度、数据类型或计算模式时，通过像 Triton 这样的领域特定...

2026-02-08andy阅读(141)评论(0)

在深度学习，尤其是大型语言模型（LLM）的面试中，这是一个非常常见且重要的问题。理解计算瓶颈是优化模型部署和推理速度的关键。对于基于 Transformer 架构的大模型，在推理（Inference）阶段，计算瓶颈确实往往落在存储带宽（Me...

2026-02-08andy阅读(271)评论(0)

训练大型语言模型（LLM）是计算密集型任务，其成本往往以GPU-Hours（GPU小时数）来衡量。准确估算这一指标，是项目规划和预算控制的关键。本文将基于LLM训练的算力基础公式（Chinchilla Scaling Laws），提供一个实...