基于神经网络的知识蒸馏方法最早在2014年提出:

其过程可以理解为使用复杂模型(优质模型)得到的预测结果(软标签)来训练学生网络,学生网网络同时输入软标签得到结果【与教师网络的软标签进行对比(此刻交叉熵的系数不仅有0和1)】和硬标签得到的结果(此时如果不进行这一步则可以实现无样本学习)。
具体内容参考B站up主 同济子豪兄 【【精读AI论文】知识蒸馏_哔哩哔哩_bilibili】的学习视屏,对该成果和方法有如下总结:
1、数据的标注(标签决定了结果):提升baseline的核心是数据由独热编码的hard target变成了能够表示相似度(?,这里依旧存疑)的soft target,因此可以理解为是数据层面的改变导致了学习性能的改变。【从侧面对交叉熵函数的优劣也进行了质疑(不关注标签不一致类别的得分而仅关注标签一致类别的结果),这里同时引出了均方差损失函数(对soft target的计算可否使用MSE损失函数)】
2、针对复杂网络与简易网络的定义(还未读完全文):文中实验将baseline进行填充而获得了复杂网络,这种实验放在如今可能是不合理的(难以直接体现简单与复杂)
3、重视结果而不重过程:知识的传递不应该仅被局限在输出层,其中的卷积层也会存在大量信息
4、多损失函数的添加(?,梯度下降是否会倾斜、惰性学习),可能涉及一些优化算法。
*5、通识问题:得分越高,一定越像吗?是否应当从数据层面观察

本文介绍了知识蒸馏的概念,即使用复杂模型的软标签训练学生网络,探讨了数据从硬标签到软标签的转变对性能的影响,以及该方法在减少数据标注需求和简化网络结构上的应用。作者提出了对交叉熵函数的质疑,并讨论了模型的预训练性质和无标注数据的学习潜力。
最低0.47元/天 解锁文章
1281

被折叠的 条评论
为什么被折叠?



