解构彩票:零、符号和超级掩码(论文解释)

彩票假设与赢家票的秘密:Uber AI团队最新研究揭秘

本文介绍了Uber AI团队Hadi Jo、Janis Lan、Roseanne Liu和Jason Yusinski发表的关于“彩票假设”的最新研究。该研究是对之前“彩票假设”论文的后续工作,旨在更深入地理解“赢家票”的本质及其获取方法。

彩票假设的核心内容是:在神经网络中,存在一个比原始网络规模小得多的子网络,该子网络可以以相同或更高的精度完成训练。这个子网络被称为“赢家票”。关键在于,该子网络必须与原始网络使用相同的初始权重。

彩票算法则是一种获取“赢家票”的方法:

  1. 训练完整网络:对整个神经网络进行训练。
  2. 选择最大权重:在训练结束后,选择权重最大的部分。
  3. 重置权重至初始值:将这些最大权重的值重置为初始训练时的值。
  4. 重新训练子网络:只训练包含最大权重的子网络。

该方法本质上是一种网络剪枝技术,通过保留训练后最有效的权重来构建更小的网络。

本文通过分析2D图来深入研究“赢家票”的特性。每个2D图代表神经网络中的单个权重,横轴表示权重的初始值(WI),纵轴表示权重的最终值(WF)。图中每个点代表一个权重,其位置由初始值和最终值决定。

研究发现,训练过程中,权重的最终值与初始值存在一定的关系。例如,一些权重在训练后被调整到更小的值,而另一些权重则被调整到更大的值。

本文旨在通过分析“赢家票”的特性,揭示其背后的秘密,并探讨如何获得更有效的“赢家票”。它将为神经网络的剪枝和优化提供新的思路,并推动人工智能领域的发展。

本文深入研究了彩票假设的本质,并试图阐明哪些因素重要,哪些因素不重要。https://arxiv.org/abs/1905.01067
摘要:Frankle 和 Carbin 最近的“彩票假设”论文表明,一种简单的方法可以创建稀疏网络(保留较大的权重),这种方法可以从头开始训练模型,但前提是必须从相同的初始权重开始。这些网络的性能通常超过非稀疏基模型的性能,但其原因尚不清楚。在本文中,我们研究了彩票 (LT) 算法的三个关键组成部分,表明每个组成部分都可以有很大程度的改变,而不会影响整体结果。对这些因素进行消融分析,可以让我们对 LT 网络为何能取得如此好的性能有新的认识。我们展示了为什么将权重设置为零很重要,如何仅使用符号就可以让重新初始化的网络进行训练,以及为什么掩码的行为类似于训练。最后,我们发现了超级掩码的存在,这种掩码可以应用于未经训练的随机初始化网络,以产生性能远超随机的模型(MNIST 上为 86%,CIFAR-10 上为 41%)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YannicKilcher

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值