怎样通过 OmniQuant 优化量化参数:从权重变换角度提升端侧模型的感知精度
1. 为什么端侧模型需要 OmniQuant? 在端侧(手机、嵌入式设备)部署大语言模型(LLM)或大型视觉模型时,量化(Quantization)是必不可少的。然而,传统的后量化(PTQ)方法(如简单的 Round-to-Nearest)...
1. 为什么端侧模型需要 OmniQuant? 在端侧(手机、嵌入式设备)部署大语言模型(LLM)或大型视觉模型时,量化(Quantization)是必不可少的。然而,传统的后量化(PTQ)方法(如简单的 Round-to-Nearest)...