引导式学习让“不可训练”的神经网络发挥其潜力

在这里插入图片描述
即使是长期被认为“无法训练”的网络,在些许帮助下也能有效学习。麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员表明,让神经网络进行短暂的对齐——他们称之为“引导”的方法——能显著提升那些此前被认为不适合现代任务的架构的性能。

他们的研究结果表明,许多所谓的“低效”网络可能只是从不太理想的起点开始,而短期指导可以将它们置于一个更易于学习的位置。

该团队的引导方法通过在训练过程中促使目标网络匹配引导网络的内部表征来发挥作用。与知识蒸馏等传统方法不同,后者侧重于模仿教师网络的输出,而这种引导方法则直接将结构性知识从一个网络传递到另一个网络。这意味着目标网络会学习引导网络在每一层中如何组织信息,而非仅仅复制其行为。值得注意的是,即使是未经训练的网络也包含可被传递的架构偏差,而经过训练的引导网络还能传递已习得的模式。

“我们发现这些结果相当令人惊讶,”麻省理工学院电气工程与计算机科学系(EECS)博士生、CSAIL研究员、该研究论文的主要作者之一维格内什·苏布拉马尼亚姆(2023级,2024级工程硕士)说,“令人印象深刻的是,我们能够利用表征相似性让这些传统上‘糟糕’的网络真正发挥作用。”

盖迪安天使

一个核心问题是,指导是否必须贯穿整个训练过程,还是说其主要作用是提供更好的初始化。为了探究这一点,研究人员用深度全连接网络(FCNs)进行了一项实验。在针对实际问题进行训练之前,该网络先用随机噪声与另一个网络进行了几步练习,就像运动前的拉伸一样。结果令人惊讶:通常会立即过拟合的网络保持了稳定,实现了更低的训练损失,并且避免了在所谓的标准FCNs中常见的典型性能下降问题。这种调整就像是对网络的有益预热,表明即使是短暂的练习环节,也能带来持久的益处,而无需持续的指导。

这项研究还将引导法与知识蒸馏进行了对比,后者是一种流行的方法,即学生网络尝试模仿教师网络的输出。当教师网络未经训练时,蒸馏法会完全失效,因为其输出不包含任何有意义的信号。相比之下,引导法仍然能带来显著改进,因为它利用的是内部表征而非最终预测。这一结果凸显了一个关键见解:未经训练的网络已经编码了有价值的架构偏差,这些偏差可以引导其他网络进行有效的学习。

除了实验结果外,这些发现对于理解神经网络架构具有广泛的意义。研究人员认为,成功与否往往较少取决于特定任务的数据,而更多取决于网络在参数空间中的位置。通过与引导网络对齐,有可能将架构偏差的影响与习得知识的影响区分开来。这使科学家能够确定网络设计的哪些特征有助于高效学习,以及哪些挑战仅仅源于糟糕的初始化。

Guidance还为研究架构之间的关系开辟了新途径。通过衡量一个网络引导另一个网络的难易程度,研究人员可以探究功能设计之间的差异,并重新审视神经网络优化理论。由于该方法依赖于表征相似性,它可能会揭示网络设计中以前隐藏的结构,有助于确定哪些组件对学习的贡献最大,哪些则不然。

最终,这项研究表明,所谓的“不可训练”网络并非天生注定失败。通过引导,可以消除故障模式,避免过拟合,并使以前效果不佳的架构达到现代性能标准。CSAIL团队计划探究哪些架构元素对这些改进贡献最大,以及这些见解如何影响未来的网络设计。通过揭示即使是最难以处理的网络所隐藏的潜力,引导为理解——并有望塑造——机器学习的基础提供了一个强大的新工具。

萨布拉马尼亚姆与计算机科学与人工智能实验室(CSAIL)的同事们共同撰写了这篇论文,这些同事包括:研究科学家布莱恩·张、博士生戴维·梅奥(2018年本科毕业、2019年工程硕士毕业)、研究助理科林·康韦尔、首席研究员鲍里斯·卡茨和麻省理工学院教授托马索·波焦,以及刚离开CSAIL的研究科学家安德烈·巴布。他们的研究工作得到了部分机构的支持,其中包括脑、心智与机器中心(CBMM)、美国国家科学基金会、麻省理工学院CSAIL机器学习应用计划、麻省理工学院-IBM沃森人工智能实验室、美国国防高级研究计划局(DARPA)、美国空军人工智能加速器以及美国空军科学研究办公室。

他们的研究成果最近在神经信息处理系统会议与研讨会(NeurIPS)上进行了展示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值