怎样通过 ONNX Simplifier 消除计算图冗余节点:提升移动端推理效率的第一步
在将深度学习模型部署到移动端或嵌入式设备时,模型的大小和推理速度是至关重要的指标。许多从PyTorch或TensorFlow导出的ONNX模型,在计算图中包含大量冗余节点、不必要的初始化器(Initializers)或可合并的常量操作(如S...
在将深度学习模型部署到移动端或嵌入式设备时,模型的大小和推理速度是至关重要的指标。许多从PyTorch或TensorFlow导出的ONNX模型,在计算图中包含大量冗余节点、不必要的初始化器(Initializers)或可合并的常量操作(如S...
为什么 ZeRO-3 能让单卡跑起“塞不下”的模型? 随着大语言模型(LLM)的尺寸不断膨胀,GPU的显存往往成为训练过程中的最大瓶颈。一个1750亿参数的模型(如GPT-3),即使使用混合精度(FP16/BF16),仅参数、梯度和优化器状...