论文笔记——Deep Model Compression Distilling Knowledge from Noisy Teachers

本文介绍了一种利用教师-学生模型进行学习的方法,并通过在教师模型输出上添加噪声来模拟多个教师,以此作为一种正则化手段。文章探讨了不同噪声比例对结果的影响,并对比了教师加噪声与学生加噪声的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址:https://arxiv.org/abs/1610.09650

主要思想

这篇文章就是用teacher-student模型,用一个teacher模型来训练一个student模型,同时对teacher模型的输出结果加以噪声,然后来模拟多个teacher,这也是一种正则化的方法。
819060-20171012001923215-2044945914.png

1. teacher输出的结果加噪声以后,然后和student的输出结果计算L2 loss,作为student网络的反馈。

819060-20171023215217348-1728358185.png

2. 加噪声

819060-20171012002024449-516811945.png

3. 计算L2 loss

819060-20171012002030762-408986835.png

4. 反向传播,更新参数

819060-20171012002038465-707694388.png

5. 算法过程

819060-20171012002048887-79866820.png

  • 注意:加噪声的时候对输入进行了采样,不然直接全加也太暴力了吧。

等价于基于噪声的回归

819060-20171012002107699-1566249440.png
819060-20171012002111059-1953273830.png
819060-20171012002114965-1505805666.png
819060-20171012002119012-13193054.png

实验结果

1. 对比了不同噪声比例对结果的影响,其实就是调参的过程。

819060-20171012002125465-427611649.png

2. 比较了学生加噪声和教师加噪声,结果是教师加噪声效果更加明显。

819060-20171012002128824-1847675605.png

3. 比较了教师加噪声和一般的正则化操作(dropout)

819060-20171012002134449-1550467792.png

总结

本文想法比较简单,就是给teacher输出结果加噪声,美曰其名,learn from multi teachers.

转载于:https://www.cnblogs.com/zhonghuasong/p/7653619.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值