标签：并行

如何针对不同的移动端架构（A76 vs A55）配置推理库的并行线程数以平衡功耗与性能

2026-03-05andy阅读(38)评论(0)

在移动端部署深度学习模型时，开发者常面临一个困境：简单的设置线程数为核心总数往往会导致严重的发热降频，而线程数太少又无法满足实时性需求。本文将深入解析如何在 ARM big.LITTLE 架构（如典型的 A76+A55 组合）下，通过合理的...

2026-02-24andy阅读(59)评论(0)

如何通过 Kubeflow Pipelines 深入解耦并并行化 AI 训练流水线在现代 AI 生产环境中，单一的巨型脚本（Monolithic script）已成为迭代效率的杀手。通过将 AI 流程分解为有向无环图（DAG），我们可以实...

2026-02-15andy阅读(61)评论(0)

在 AI 模型部署到端侧设备或采用异构 CPU 架构（如 ARM big.LITTLE 或 Intel P/E 核设计）的服务器时，我们经常面临一个挑战：推理延迟（Latency）的抖动（Jitter）过大，导致 P99 延迟性能不佳。这是...

2026-02-13andy阅读(72)评论(0)

Megatron-LM是NVIDIA开发的一个用于训练超大规模Transformer模型的框架。它通过组合三种并行技术（数据并行DP、张量并行TP、流水线并行PP）实现了高效的3D并行策略。对于希望配置和优化LLM训练的用户来说，理解TP和...

2026-02-09andy阅读(65)评论(0)

Megatron-LM是由NVIDIA开发的一套用于训练超大规模语言模型的框架。随着模型参数量突破万亿级别，任何单一的并行技术都难以高效地在有限的硬件资源上完成训练。Megatron-LM通过巧妙地结合三种主要的并行策略——张量并行（Ten...

2026-02-05andy阅读(91)评论(0)

在进行深度学习模型开发时，特别是在测试分布式训练策略（如 tf.distribute.MirroredStrategy）时，我们往往需要多块 GPU。然而，并非所有开发环境都具备多卡资源。TensorFlow 提供了一种强大的解决方案：虚拟...

2026-02-01andy阅读(121)评论(0)

张量并行（Tensor Parallelism, TP）是大型语言模型（LLMs）训练和推理中必不可少的优化技术，它通过在不同设备（如GPU）上切分模型的权重张量来扩展计算能力。在Transformer架构中，Attention层和MLP层...

2026-02-01andy阅读(128)评论(0)

导语：为什么流水线并行会产生“气泡”？在训练超大规模深度学习模型时（如GPT系列），单个GPU的显存往往无法容纳整个模型。我们不得不采用模型并行策略，其中，流水线并行（Pipeline Parallelism, PP）是一种常用的方法，它...

2026-02-01andy阅读(77)评论(0)

如何使用 PyTorch FSDP 解决超大模型单卡显存不足问题随着大语言模型（LLM）的参数量突破百亿甚至万亿级别，传统的分布式训练方案（如DDP，数据并行）已经无法满足需求，因为DDP要求每张GPU都复制完整的模型权重、梯度和优化器状...

2026-01-31andy阅读(114)评论(0)

在训练大规模深度学习模型（特别是LLMs）时，单块GPU的计算能力和内存往往无法满足需求。分布式训练是解决这一问题的核心手段。面试中，区分数据并行（DP）、模型并行（MP/TP）和流水线并行（PP）及其切分依据，是考察候选人分布式系统理解能...