Knowledge Distillation(11)——teacher assistant

本文探讨了在知识蒸馏过程中引入助教模型以优化学生模型学习效率的方法。研究指出,当教师模型与学生模型之间的差距过大时,学习效果会下降。通过引入一个或多个助教模型可以有效缓解这一问题,提升知识迁移的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

motivation: 希望a teacher can effectively transfer its knowl-
edge to students up to a certain size,
但有时gap太大,效果反而差,
正如mutual learning发现跟teacher学还不如和一个与自己目前水平相当(虽然网络结构差很多)的student学
所以助教的概念都出来了:
在这里插入图片描述
teacher student 差距太大,学习效果反而不好:
在这里插入图片描述

这个实验很有趣:
在这里插入图片描述
看完第三个因素后,我觉得是不是gap太大时,把T调大一点就好了啊……
不过可能也不对,毕竟这个teacher才10层,prediction也没有那么hard吧,有些论文里面teacher student都是resnet这种,也没听说T要调特别大

在这里插入图片描述

teacher和student之间引入一个TA是有效的,然而又有了这些问题:
在这里插入图片描述
作者说用accuracy平均,然后得到对应TA的层数
在这里插入图片描述
我觉得这种可操作性太差,平均accuracy对应多少层还不是得训练了才知道,直接(10+2)/2不好,求几何平均数我觉得更科学点10×2=4.5\sqrt{10\times2}=4.510×2=4.5

在这里插入图片描述
这个图也很有意思,似乎TA越多越密集,迁移效果越好:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值