知识蒸馏b

本文探讨了模型压缩技术,通过知识蒸馏将大模型转化为小模型。教师网络使用hardtargets训练,学生网络利用softtargets进行学习,防止过拟合并实现零样本学习。蒸馏温度参数影响错误类别的得分。此外,中间层也可作为教师指导学生网络。这种方法允许多个教师指导,并优化了学习过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
把大模型压缩成小模型。
在这里插入图片描述
用hard targets训练教师网络,用soft targets训练学生网络(因为学生网络相对比较科学,因为马和驴差不多,所以概率差不多)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如果想要错误类别的得分更大一点,可以加上一个蒸馏温度,如果t=1则就是普通的softmax,右下角可以看到t=3的时候错误类别的得分大了一点。
在这里插入图片描述
这个图里面的两个loss就是下图里的两个loss。
在这里插入图片描述
教师网络是已经训练好的,整体来说就是做两次loss。distillation loss就像一个老师在教你。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
好处:可以防止过拟合;可以进行零样本学习,比如说学生网络从来没见过牛,但是教师网络可以教学生网络。
在这里插入图片描述
在这里插入图片描述
多个老师的情况。
在这里插入图片描述
或者也可以考虑用中间层来作为老师。
在这里插入图片描述
用中间层来作为老师。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值