标签：切分

如何利用多级可信架构：详解计算图切分技术在可信环境与非安全环境间的协同调度

2026-03-09andy阅读(32)评论(0)

如何利用计算图切分实现可信环境（TEE）与非安全环境（REE）协同推理在端侧AI应用中，保护模型权重或用户隐私数据至关重要。传统的全加密推理（如全同态加密）性能极差，而“计算图切分”技术提供了一种实用的平衡方案：将涉及敏感隐私的计算环节（...

2026-02-13andy阅读(72)评论(0)

Megatron-LM是NVIDIA开发的一个用于训练超大规模Transformer模型的框架。它通过组合三种并行技术（数据并行DP、张量并行TP、流水线并行PP）实现了高效的3D并行策略。对于希望配置和优化LLM训练的用户来说，理解TP和...

2026-02-09andy阅读(81)评论(0)

在进行大规模模型训练时，我们通常采用分布式数据并行（DDP）来加速训练过程。然而，如果不恰当地处理数据加载，很容易导致不同工作节点（GPU/进程）之间的数据读取任务不均衡，进而造成GPU等待I/O，降低整体训练效率。本文将聚焦于 PyTo...

2026-02-01andy阅读(122)评论(0)

张量并行（Tensor Parallelism, TP）是大型语言模型（LLMs）训练和推理中必不可少的优化技术，它通过在不同设备（如GPU）上切分模型的权重张量来扩展计算能力。在Transformer架构中，Attention层和MLP层...

2026-01-31andy阅读(115)评论(0)

在训练大规模深度学习模型（特别是LLMs）时，单块GPU的计算能力和内存往往无法满足需求。分布式训练是解决这一问题的核心手段。面试中，区分数据并行（DP）、模型并行（MP/TP）和流水线并行（PP）及其切分依据，是考察候选人分布式系统理解能...