标签：zero

详解 ZeRO-Offload 机制：为什么把显存扔给内存和 SSD 却能跑通百亿参数模型？

2026-02-14andy阅读(37)评论(0)

为什么 VRAM 成为大模型训练的瓶颈？在训练参数量巨大的模型（如 Llama-2 70B）时，即使是顶级的GPU（如A100或H100）也面临着显存（VRAM）不足的问题。一个完整的模型训练状态需要存储以下核心组件：模型参数 (P)：...

2026-02-06andy阅读(65)评论(0)

模型量化是将模型权重和激活值从高精度浮点数（如FP32）转换为低精度定点整数（如INT8）的过程，以减少模型大小和计算延迟。在面试中，理解均匀量化（Uniform Quantization）的基础知识，特别是如何计算 Scale ($S$)...

2026-01-31andy阅读(62)评论(0)

为什么 ZeRO-3 能让单卡跑起“塞不下”的模型？随着大语言模型（LLM）的尺寸不断膨胀，GPU的显存往往成为训练过程中的最大瓶颈。一个1750亿参数的模型（如GPT-3），即使使用混合精度（FP16/BF16），仅参数、梯度和优化器状...

2025-12-28andy阅读(225)评论(0)

在PyTorch的深度学习训练中，管理和清零梯度（Gradient）是一个基础且关键的步骤。然而，很多初学者在尝试手动清零某个特定张量（Tensor）的梯度时，会遇到一个令人困惑的错误：AttributeError: ‘Tens...

2025-12-24andy阅读(112)评论(0)

在训练或部署超大规模AI模型（如千亿参数LLM）时，GPU显存（VRAM）是最大的瓶颈。尽管单卡显存容量不断提升，但模型增长速度更快。解决这一问题的核心技术思路是实现“分级存储”（Memory Tiering），将高频访问的“热数据”驻留在...