算法研究｜全新视角解读深度学习中的泛化

原创

于 2021-04-28 10:11:04 发布 · 3.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文介绍了 Google Research 和哈佛大学的研究团队提出的 Deep Bootstrap 框架，该框架将深度学习的泛化能力与在线优化联系起来。研究发现，模型在无限数据上的快速优化能力与在有限数据上的泛化能力密切相关。通过对理想情况和现实情况的对比，研究人员可以更好地理解和改进深度学习模型的泛化性能。

文 / Google Research 团队 Hanie Sedghi 和哈佛大学 Preetum Nakkiran

如何理解泛化是深度学习领域尚未解决的基础问题之一。为什么使用有限训练数据集优化模型能使模型在预留测试集上取得良好表现？这一问题距今已有 50 多年的丰富历史，并在机器学习中得到广泛研究。如今有许多数学工具可以用来帮助研究人员了解某些模型的泛化能力。但遗憾的是，现有的大多数理论都无法应用到现代深度网络中，这些理论在现实环境中显得既空泛又不可预测。而理论和实践之间的差距在过度参数化模型中尤为巨大，这类模型在理论上能够拟合训练集，但在实践中却不能做到。

丰富历史

https://courses.engr.illinois.edu/ece544na/fa2014/vapnik71.pdf
数学工具

https://papers.nips.cc/paper/1996/file/fb2fcd534b0ff3bbed73cc51df620323-Paper.pdf
过度参数化

https://www.pnas.org/content/pnas/116/32/15849.full.pdf

在《Deep Bootstrap 框架：拥有出色的在线学习能力即是拥有出色的泛化能力》(The Deep Bootstrap Framework: Good Online Learners are Good Offline Generalizers)（收录于 ICLR 2021）这篇论文中，我们提出了一个解决此问题的新框架，该框架能够将泛化与在线优化领域联系起来。在通常情况下，模型会在有限的样本集上进行训练，而这些样本会在多个训练周期中被重复使用。但就在线优化而言，模型可以访问无限的样本流，并且可以在处理样本流的同时进行迭代更新。在这项研究中，我们发现，能使用无限数据快速训练的模型，它们在有限数据上同样具有良好的泛化表现。二者之间的这种关联为设计实践提供了新思路，同时也为从理论角度理解泛

最低0.47元/天解锁文章