【知识蒸馏】 Knowledge Distillation from A Stronger Teacher

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


一、摘要

近年来,视觉模型的精度凭借更高级的训练策略和模型结构取得了大幅度的提升,但更新颖的模型也给知识蒸馏的应用带来了许多挑战。当前大部分知识蒸馏方法仍然是在传统的基准训练策略和模型上进行研究和实验,而在精度更高的新颖模型和策略下的表现甚至低于不使用知识蒸馏。以往的工作大多将此归结为模型的容量差异(capacity gap)导致的蒸馏效果下降。本文将介绍来自商汤研究团队和悉尼大学等机构的研究人员提出的一种logits层面的知识蒸馏算法DIST。该工作分析了不同大小及不同训练策略得到的模型的输出差异,并提出了一种新的logits蒸馏损失函数用于弱化这些差异,从而更关注那些对任务有意义的信息的蒸馏。实验结果表明,DIST不仅在基准模型和训练策略上取得了知识蒸馏的新高度,同时在目前SOTA的训练策略及模型下相较以往方法取得了大幅提升。

二、动机

题目中 “更强的教师模型”,有两个含义:尺寸更大,数据增强策略更先进
获得更好的知识蒸馏性能的方式之一是尝试不同类型的教师模型 (比如说使用更大的教师模型或者更强的训练策略),作者在本文中认为:应该借助 “更强的教师模型” 进行知识蒸馏。而针对什么是 “更强的教师模型”,作者推广实验给出了一些建议:
除了扩大模型规模,还可以通过先进的训练策略,如标签平滑和数据增强 (label smoothing and data augmentation),以获得更强的教师模型。但是仅仅有这些是不够的。配备了更强的教师模型之后,学生模型在正常 KD 下的表现可能会下降,甚至性能还不如不用 KD。
为什么是这样呢?作者觉得:
当将教师和学生的训练策略转换为更强的训练策略时,教师和学生之间的差异往往会变得相当大。在这种情况下,通过 KL 散度来精确恢复预测可能具有挑战性,并导致 KD 的失败。
所以,作者在本文的动机是:
保留教师和学生模型之间的预测关系非常重要。在将知识从 teacher 传

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值