详解 ZeRO 冗余消除技术:为什么 ZeRO-3 能让单卡跑起“塞不下”的模型
为什么 ZeRO-3 能让单卡跑起“塞不下”的模型? 随着大语言模型(LLM)的尺寸不断膨胀,GPU的显存往往成为训练过程中的最大瓶颈。一个1750亿参数的模型(如GPT-3),即使使用混合精度(FP16/BF16),仅参数、梯度和优化器状...
为什么 ZeRO-3 能让单卡跑起“塞不下”的模型? 随着大语言模型(LLM)的尺寸不断膨胀,GPU的显存往往成为训练过程中的最大瓶颈。一个1750亿参数的模型(如GPT-3),即使使用混合精度(FP16/BF16),仅参数、梯度和优化器状...