【学习】网络压缩:知识蒸馏、参数量化、动态计算,PPO

文章介绍了深度学习中的优化策略,包括知识蒸馏,其中学生网络从老师网络学习,参数量化以减少模型大小,如深度方向可分卷积,以及动态计算技术,允许网络根据需求调整计算。此外,还讨论了强化学习中的策略优化算法PPO,从on-policy转向off-policy以提高效率。


一、知识蒸馏Knowledge Distillation

学生网络学习老师网络。
在这里插入图片描述
学生可以学到训练资料可能没有提供的东西。
老师也可以是很多个模型的投票结果:
在这里插入图片描述
温度常数用于softmax:可以让分布变平滑。这是一个超参数,不能非常大(会变成所有参数都一样)
在这里插入图片描述
这里有平滑的分布,就不是one-hot一样的东西(要么是0,要么是1),这样就不是给一个标准答案了!可以给额外更多的信息。

二、参数量化

• 1.使用较少的位来表示一个值
•2.权重聚类(确定了分布之后取平均)
3.用较少的比特表示频繁的聚类,用较多的比特表示罕见的聚类,例如霍夫曼编码。
在这里插入图片描述
压缩到参数只有+1或者-1,binary weights
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值