知识蒸馏(Distillation)在大模型时代的变迁:从小模型模拟到逻辑对齐
知识蒸馏(Knowledge Distillation, KD)是一种模型压缩技术,通过训练一个轻量级的学生模型去模仿一个性能强大的教师模型(Teacher Model)的输出。在大模型(LLM)时代,KD的焦点已经从单纯的“模仿输出概率”...
知识蒸馏(Knowledge Distillation, KD)是一种模型压缩技术,通过训练一个轻量级的学生模型去模仿一个性能强大的教师模型(Teacher Model)的输出。在大模型(LLM)时代,KD的焦点已经从单纯的“模仿输出概率”...