模拟面试：当你在 8 张 A100 上练模型时，发生了显存不均，你会从哪排查？

在多 GPU 分布式训练（例如使用 PyTorch DDP 或 TensorFlow MirroredStrategy）中，显存（VRAM）使用不均衡是一个常见但棘手的问题。当您在 8 块 A100 上遇到此问题时，通常意味着某个或某些进程（Rank）承担了额外的数据、模型副本或状态负载。作为一个资深技术人员，我们应从以下四个核心方面系统地进行排查。

Table of Contents

第一步：外部环境和基础配置检查

首先要确认问题是否由环境设置错误导致，这是最简单也最容易被忽视的步骤。

1. 检查 CUDA 设备可见性

确保所有 8 块卡对所有进程都可见，并且每个进程都被正确分配了一个唯一的设备。

排查方法： 运行 nvidia-smi 确认所有卡状态正常。在代码中，检查 torch.cuda.device_count() 是否返回 8，以及每个 rank 是否使用了正确的设备。

# 假设您使用torch.distributed.launch或torchrun启动
local_rank = int(os.environ['LOCAL_RANK'])
torch.cuda.set_device(local_rank) 
# 确保每个进程都绑定到唯一的设备

2. 检查分布式初始化

如果 Rank 0 显存占用明显更高，可能是因为它在分布式初始化完成之前执行了不必要的全局操作（例如加载全部数据集的元数据）。

排查方法： 确保 dist.init_process_group 是所有模型和数据操作发生之前的第一批操作之一。

第二步：数据加载与分配检查 (最常见原因)

数据分配不均是导致显存不均的第一大元凶。如果 Rank 0 负责加载了所有数据并尝试手动切分，或者全局 Batch Size 无法被 GPU 数量整除，都可能导致不均。

3. 检查 DistributedSampler 的使用

在 PyTorch DDP 中，必须使用 DistributedSampler 来确保每个 Rank 只加载其应处理的数据子集。如果漏掉这一步，所有 Rank 都会尝试加载整个数据集，导致显存溢出或不均。

错误示例（显存不均）：

# 错误：没有使用 DistributedSampler
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

正确示例：

import torch.utils.data as data
from torch.utils.data.distributed import DistributedSampler

# ... setup world_size and rank ...

sampler = DistributedSampler(
    dataset,
    num_replicas=world_size, 
    rank=rank, 
    shuffle=True
)

dataloader = data.DataLoader(
    dataset,
    batch_size=per_gpu_batch_size, # 必须是每卡batch size
    sampler=sampler, 
    num_workers=4
)

# 在每个 epoch 开始时调用 set_epoch 来实现数据打乱
sampler.set_epoch(epoch)

4. 检查全局 Batch Size 的整除性

虽然现代框架通常能处理，但如果您的全局 Batch Size (GBZ) 无法被 8 张卡整除，剩余的数据片可能会被分配给 Rank 0，导致 Rank 0 的显存稍高。

排查方法： 确保 GBZ 是 8 的倍数。如果必须使用不可整除的 GBZ，需要确认框架处理剩余数据片的逻辑。

第三步：模型与代码逻辑检查

如果数据分配无误，问题可能出在模型或训练状态的同步上。

5. 检查模型状态 (Optimizer State)

在使用像 Adam 这种带有动量（momentum）或方差（variance）的优化器时，这些状态本身会占用显存。如果优化器实例在 DDP 包装之前被创建，或者其状态没有正确地与设备关联，可能会导致问题。

最佳实践： 始终先将模型移动到设备，然后将其包装在 DDP 中，最后再初始化优化器。

# 假设 model 已经定义
model.to(local_rank) # 1. 移动到设备
model = DDP(model, device_ids=[local_rank]) # 2. 包装 DDP
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4) # 3. 初始化优化器

6. 检查模型中非 DDP 参与的 Buffer

某些自定义的模型组件、大型查找表（Lookup Tables）或手动注册的 Buffer 可能没有被 DDP 正确同步或忽略。如果 Rank 0 意外地加载了这些大型 Buffer 的主副本，会导致其显存增加。

排查方法： 检查您的模型结构，特别是那些通过 register_buffer 注册的大型张量。

第四步：诊断工具和 Profiling

如果上述步骤未能解决问题，您需要深入探查每个 Rank 的显存分配情况。

7. 使用 PyTorch 内存统计工具

利用 PyTorch 提供的内存管理 API 打印每个 Rank 的显存使用快照，以确定是缓存（Cached）内存还是活动（Active）内存导致的问题。

# 在关键点打印内存使用情况
print(f"Rank {rank} VRAM Stats:")
print(torch.cuda.memory_stats(local_rank))
# 尤其关注 'active_bytes.all.current' 和 'allocated_bytes.all.current'

8. 检查 Gradient Accumulation 或 Checkpointing

如果在训练中使用了梯度累积（Gradient Accumulation）或模型检查点（Gradient Checkpointing），请确保其逻辑在所有 Rank 上是一致的。不一致的累积步数或不恰当的检查点存储可能会导致显存临时或永久性地出现不平衡。

模拟面试：当你在 8 张 A100 上练模型时，发生了显存不均，你会从哪排查？

第一步：外部环境和基础配置检查

1. 检查 CUDA 设备可见性

2. 检查分布式初始化

第二步：数据加载与分配检查 (最常见原因)

3. 检查 DistributedSampler 的使用

4. 检查全局 Batch Size 的整除性

第三步：模型与代码逻辑检查

5. 检查模型状态 (Optimizer State)

6. 检查模型中非 DDP 参与的 Buffer

第四步：诊断工具和 Profiling

7. 使用 PyTorch 内存统计工具

8. 检查 Gradient Accumulation 或 Checkpointing

相关

相关推荐

评论抢沙发

第一步：外部环境和基础配置检查

1. 检查 CUDA 设备可见性

2. 检查分布式初始化

第二步：数据加载与分配检查 (最常见原因)

3. 检查 DistributedSampler 的使用

4. 检查全局 Batch Size 的整除性

第三步：模型与代码逻辑检查

5. 检查模型状态 (Optimizer State)

6. 检查模型中非 DDP 参与的 Buffer

第四步：诊断工具和 Profiling

7. 使用 PyTorch 内存统计工具

8. 检查 Gradient Accumulation 或 Checkpointing

相关

相关推荐

评论 抢沙发

评论抢沙发