知识蒸馏(Distillation)在大模型时代的变迁:从小模型模拟到逻辑对齐
知识蒸馏(Knowledge Distillation, KD)是一种模型压缩技术,通过训练一个轻量级的学生模型去模仿一个性能强大的教师模型(Teacher Model)的输出。在大模型(LLM)时代,KD的焦点已经从单纯的“模仿输出概率”...
知识蒸馏(Knowledge Distillation, KD)是一种模型压缩技术,通过训练一个轻量级的学生模型去模仿一个性能强大的教师模型(Teacher Model)的输出。在大模型(LLM)时代,KD的焦点已经从单纯的“模仿输出概率”...
在深度学习模型的训练过程中,我们通常依赖TensorFlow或PyTorch等框架自动计算梯度。然而,某些操作,例如四舍五入(tf.round)、取整(tf.floor)、或者某些复杂的硬件相关的自定义操作,它们在数学上几乎处处不可导,会导...
Kubernetes 中的持久化卷声明(PVC)是用户请求存储资源的方式。当 PVC 持续处于 Pending 状态时,意味着系统未能成功找到或动态创建匹配的持久化卷(PV)。理解 PV 和 PVC 之间的绑定逻辑是解决问题的关键。 1. ...
在分布式训练,尤其是深度学习模型的分布式训练中,高效的节点间通信是性能的关键。All-Reduce、All-Gather 和 Reduce-Scatter 是最核心的三种集体通信原语(Collective Communication Pri...
如何理解和使用 Kubernetes 静态 Pod 与动态 Pod 的控制差异:详解 Kubelet 侧的特殊逻辑 在 Kubernetes (K8s) 生态中,Pod 是最小的可部署单元。我们通常所说的 Pod 都是通过 API Serv...
在将大语言模型(LLM)驱动的Agent投入生产环境时,最大的挑战之一是确保其在面对复杂指令、歧义输入或外部API错误时的鲁棒性。标准的Chain-of-Thought (CoT) 虽能提升推理能力,但难以保证输出的格式和逻辑的可靠性。本文...