THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS论文笔记

最新推荐文章于 2025-03-17 10:33:31 发布

向上的阿鹏

最新推荐文章于 2025-03-17 10:33:31 发布

阅读量447

点赞数

CC 4.0 BY-SA版权

分类专栏：图像处理论文文章标签：神经网络深度学习计算机视觉

本文链接：https://blog.youkuaiyun.com/weixin_44543648/article/details/117550530

论文同时被 2 个专栏收录

31 篇文章

订阅专栏

图像处理

12 篇文章

订阅专栏

彩票假说指出，存在一个小规模的子网络，经过适当训练后，可达到原始网络的精度。该过程包括随机初始化网络、训练、修剪、重置参数。关键点在于迭代剪枝、合适的初始值、学习率和Dropout的使用。在CNN中，全局修剪和Dropout能提升效果。过度参数化的网络更易产生中奖彩票，但需要达到一定稀疏度才能重初始化成功。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

lottery ticket hypothesis（彩票假说）

The lottery ticket hypothesis predicts that ∃ m for which j0≤ j (commensurate training time), a0≥ a (commensurate accuracy), and kmk0? |θ| (fewer parameters).

网络中一直存在一个比较小的子网络，当单独训练，并且尽可能多地去迭代训练后，可以达到原始网络的测试精度。

获得中奖彩票网络的大致过程：

Randomly initialize a neural network f(x;θ0) (where θ0∼ Dθ).
Train the network for j iterations, arriving at parameters θj.
Prune p% of the parameters in θj, creating a mask m.
Reset the remaining parameters to their values in θ0, creating the winning ticket f(x;m?θ0)

1，随机初始化神经网络f

2，迭代j次训练神经网络，并且获得参数θj

3，在θj个参数中，修剪百分之p的参数，并创造mask m

4，将剩余的参数值用网络最开始的初始值进行初始化，并且构造中奖彩票网络（即修剪后并重新初始化后的网络）。

其中，这个过程中使用的是迭代剪枝，即如果我们要通过n次迭代修剪百分之p的权重，则每次迭代修剪百分之p的n分之一的权重，该方法相比于一次性剪枝，可以获得尺寸更小的子网络。，并达到原始网络的精度。效果如图所示
在这里插入图片描述

在获得过程中，我们最后获得的网络需要被初始化为初始值，因为只有合理化网络初始化值才可以获得更好的中奖彩票网络。如果进行重新初始化，效果将远远不如网络最初的初始值，效果如图：
在这里插入图片描述
修剪过程中，学习率也是十分重要的，过高的学习率将会导致无法找到中奖彩票网络，网络在较高的学习率时，表现能力将低于随机初始化时的效果。同时，使用学习率热身可以有效提高测试集的精度。效果如图：
在这里插入图片描述