如何针对大模型特定的层进行混合精度量化:详解基于敏感度分析的自动策略分配
如何针对大模型特定层进行混合精度量化:基于敏感度分析的自动策略分配 在部署大语言模型(LLM)时,全量化(如统一 INT4)虽然能极大降低显存占用,但往往会导致模型在复杂逻辑推理上出现“降智”。由于模型不同层对精度的敏感度不同,混合精度量化...
如何针对大模型特定层进行混合精度量化:基于敏感度分析的自动策略分配 在部署大语言模型(LLM)时,全量化(如统一 INT4)虽然能极大降低显存占用,但往往会导致模型在复杂逻辑推理上出现“降智”。由于模型不同层对精度的敏感度不同,混合精度量化...