神经网络建模中的自适应正则化
1. 引言
神经网络是用于时间序列处理和模式识别的灵活工具。在两层架构中,增加隐藏神经元的数量可以使任何相关目标函数得到任意接近的近似。然而,在嘈杂数据上过度拟合的风险是神经网络设计中的主要问题,这体现为常见的偏差 - 方差困境。
正则化的需求有两个方面:一是通过平滑成本函数并在成本函数的低曲率(可能为零)区域引入曲率,解决训练过程中的数值问题;二是通过引入额外偏差来减少方差。架构优化的总体目标是最小化泛化误差。
架构可以通过逐步选择程序(包括剪枝技术)直接优化,也可以使用正则化间接优化。通常,人们更倾向于混合方案,但非常灵活的正则化可能会替代选择程序的需求。本文主要考虑混合剪枝/自适应正则化方案。
本文提出的方法是解决调整正则化参数的问题。其核心是制定一个简单的迭代梯度下降方案,以调整正则化参数,目标是最小化泛化误差。建议使用泛化误差的经验估计,即K折交叉验证。此前的一些研究使用了留出验证估计器。
除了泛化误差的经验估计器外,近年来还开发了一些代数估计器,如FPE、FPER、GEN、GPE和NIC。但这些估计依赖于一些难以证明的统计假设,尤其是它们是o(1/Nt)估计器,其中Nt是训练示例的数量。在许多实际建模场景中,很难满足大训练集的假设。
此外,还有一些研究在不同方面对正则化进行了探索。例如,有研究使用代数估计来研究自适应正则化在估计随机变量均值时的性质,也有基于代数估计提出神经网络的自适应正则化方案,但这些方案在鲁棒性方面存在不足,且可能无法满足大训练集的要求。贝叶斯方法是最小化所谓的证据,但证据与我们主要关注的泛化误差没有简单的关系。还有研究考虑使用验证集来调整正则化的量,特别是在
超级会员免费看
订阅专栏 解锁全文
3237

被折叠的 条评论
为什么被折叠?



