FITNETS: HINTS FOR THIN DEEP NETS
论文地址:https://arxiv.org/abs/1412.6550
这篇论文主要是研究如何在更深的学生网络上取得更好的效果。之前提出的知识蒸馏,是用比较小的学生模型来模仿比较大的老师模型的知识、信息、输出,在这里为了取得更好的表现,我们希望学生模型更大一点更深一点,更为了防止更深的网络在模仿时出错,我们不只考虑老师模型的最终输出,也考虑模仿中间层的输出,来指导学生模型的训练。
只考虑单纯的知识转移的蒸馏过程,核心点是对softmax层的输入添加了温度参数。
学生网络的输出
P S τ = s o f t m a x ( a S τ ) P^{\tau}_S=softmax(\frac{a_S}{\tau}) PSτ=softmax(τaS)
老师网络的软化输出(软标签):
P S τ = s o f t m a x ( a S τ ) P^{\tau}_S=softmax(\frac{a_S}{\tau}) PSτ=softmax(τaS

提出了一种名为FitNets的方法,通过利用教师网络的中间层输出(hints)来指导学生网络的学习,实现了深度网络的有效压缩。此方法允许训练出更瘦更深的学生模型,这些模型具有更好的泛化能力和更快的运行速度。
最低0.47元/天 解锁文章
266

被折叠的 条评论
为什么被折叠?



