引言
五种获取高效深度学习模型的方法:1)设计轻量级神经网络;2)剪枝;3)量化;4)神经架构搜索;5)知识蒸馏。
知识蒸馏通常是一种Teacher-Student训练架构,运用已经训练好的教师模型提供知识,然后学生模型通过蒸馏训练来获取教师的知识。知识蒸馏可以分为两种,一种是将复杂模型的知识蒸馏到轻量级模型中,核心要义是模型压缩;另一种是将同样复杂的模型知识蒸馏到复杂的模型中,核心要以是模型性能增强。
在本文的研究调查中,知识蒸馏不 仅可以用于模型压缩,它还能通过互学习和自学习等优化策略来提高一个复杂模型的性能. 同时,知识蒸馏可以利用无标签和跨模态等数据的特征,对模型增强也具有显著的提升效果.
先前的研究都没有关注到结构化特征知识,而它在知识架构中又是不可或缺的. 某个结构上的知识往往不是单一的,它们是有关联的、多个知识形式组合. 充分利用教师网络中的结构化特征知识对学生模型的性能提升是有利的,因此它在近两年的工作中越发重要
本文从不同视角给出了基于知识蒸馏的描述,在知识蒸馏的方法上,本文增加了知识合并和教师助理的介绍;在技术融合的小节,本文增加了知识蒸馏与自动编码器、集成学习和联邦学习的技术融合;在知识蒸馏的应用进展中,本文分别介绍了知识蒸馏在模型压缩和模型增强的应用,并增加了多模态数据和金融证券的应用进展;在知识蒸馏的研究趋势展望中,本文给出了更多的研究趋势,特别是介绍了模型增强的应用前景.
知识蒸馏的提出
早期的工作使用逻辑单元和类概率,逻辑单元是softmax激活的前一层,而类概率是逻辑单元通过softmax激活得来的,这些都属于硬目标知识,缺点是,类概率层的负标签输出的信息基本已经丢失. 将该类概率作为学生的监督信号,相当于让学生学习硬目标知识
软目标(带有温度参数T的类概率)

学生模型除了在使用教师模型的软目标进行监督之外,还需要为学生模型自身输出与数据集的标签进行监督,学习效果会更好。

知识蒸馏的框架


最低0.47元/天 解锁文章
1233

被折叠的 条评论
为什么被折叠?



