标签：流水线

如何针对摩尔线程 MT-S 系列显卡优化 Transformer 算子性能：深度解析底层流水线排布

2026-02-25andy阅读(72)评论(0)

如何通过流水线排布优化摩尔线程 MT-S 系列显卡的 Transformer 算子性能在国产 GPU 适配过程中，摩尔线程（Moore Threads）的 MUSA 架构表现出色。但要榨干其 MT-S 系列（如 MT-S80/MT-S30...

2026-02-13andy阅读(72)评论(0)

Megatron-LM是NVIDIA开发的一个用于训练超大规模Transformer模型的框架。它通过组合三种并行技术（数据并行DP、张量并行TP、流水线并行PP）实现了高效的3D并行策略。对于希望配置和优化LLM训练的用户来说，理解TP和...

2026-02-06andy阅读(88)评论(0)

在现代深度学习训练中，GPU 的计算速度往往远远超过传统硬盘 I/O 或 CPU 预处理的速度。如果数据输入管道（Input Pipeline）处理不当，就会导致高性能的 GPU 不得不等待 CPU 完成数据加载和预处理，这种情况被称为“G...

2026-02-01andy阅读(129)评论(0)

导语：为什么流水线并行会产生“气泡”？在训练超大规模深度学习模型时（如GPT系列），单个GPU的显存往往无法容纳整个模型。我们不得不采用模型并行策略，其中，流水线并行（Pipeline Parallelism, PP）是一种常用的方法，它...

2026-01-31andy阅读(114)评论(0)

在训练大规模深度学习模型（特别是LLMs）时，单块GPU的计算能力和内存往往无法满足需求。分布式训练是解决这一问题的核心手段。面试中，区分数据并行（DP）、模型并行（MP/TP）和流水线并行（PP）及其切分依据，是考察候选人分布式系统理解能...