知识蒸馏(Distillation)在大模型时代的变迁:从小模型模拟到逻辑对齐
知识蒸馏(Knowledge Distillation, KD)是一种模型压缩技术,通过训练一个轻量级的学生模型去模仿一个性能强大的教师模型(Teacher Model)的输出。在大模型(LLM)时代,KD的焦点已经从单纯的“模仿输出概率”...
知识蒸馏(Knowledge Distillation, KD)是一种模型压缩技术,通过训练一个轻量级的学生模型去模仿一个性能强大的教师模型(Teacher Model)的输出。在大模型(LLM)时代,KD的焦点已经从单纯的“模仿输出概率”...
深入理解防御蒸馏(Defensive Distillation) 防御蒸馏(Defensive Distillation, DD)是一种旨在提高深度学习模型对对抗性攻击(Adversarial Attacks)鲁棒性的技术。它由Papern...