正则化:ML中的一种策略,可减少测试误差,提高模型泛化能力。
开发更有效的正则化策略:深度学习领域主要研究工作之一。
模型族训练的三个过程:
- 不包括真实的数据生成过程,欠拟合和含有偏差。
- 匹配真实数据生成过程
- 除了2中,还包括许多其他可能的生成过程,方差主导的过拟合
正则化的目标:使得模型从第3种转化为第2种。
1. 参数范数惩罚
1.1 L2 参数正则化
权重衰减。
目标函数:
梯度为:
单步梯度下降:
换种写法:
加入权重衰减引起学习规则的修改:每步梯度更新前,会先收缩权重向量。
分析训练的整个过程:
令 w∗ 为不含正则化的目标函数取得最小训练误差时的权重向量。并在其邻域内对目标函数做二次近似。近似的 J^(θ) 如下:
H 是
为0。在该式中添加权重衰减的梯度,用 w~ 表示此时的最优点。
当 α 趋近于0时,正则化的解 w~ 会趋近于