文章目录
一、知识蒸馏Knowledge Distillation
学生网络学习老师网络。

学生可以学到训练资料可能没有提供的东西。
老师也可以是很多个模型的投票结果:

温度常数用于softmax:可以让分布变平滑。这是一个超参数,不能非常大(会变成所有参数都一样)

这里有平滑的分布,就不是one-hot一样的东西(要么是0,要么是1),这样就不是给一个标准答案了!可以给额外更多的信息。
二、参数量化
• 1.使用较少的位来表示一个值
•2.权重聚类(确定了分布之后取平均)
3.用较少的比特表示频繁的聚类,用较多的比特表示罕见的聚类,例如霍夫曼编码。

压缩到参数只有+1或者-1,binary weights


文章介绍了深度学习中的优化策略,包括知识蒸馏,其中学生网络从老师网络学习,参数量化以减少模型大小,如深度方向可分卷积,以及动态计算技术,允许网络根据需求调整计算。此外,还讨论了强化学习中的策略优化算法PPO,从on-policy转向off-policy以提高效率。
最低0.47元/天 解锁文章
1258

被折叠的 条评论
为什么被折叠?



