前言
机器学习中的核心问题:模型的设计不仅在训练数据上表现好,并且能在新输入上泛化好;
正则化策略:以增大训练误差为代价,来减少测试误差(如果在训练误差上很小,可能出现过拟合的情况);
最好的拟合模型(最小化泛化误差的意义上)是一个适当正则化的大型模型;
参数范数惩罚
许多正则化方法通过对目标函数J 添加一个参数范数惩罚
Ω(θ) ,限制模型的学习能力,我们将正则化后的目标函数记为:
J^(θ;X, y)=J(θ;X, y)+α⋅Ω(θ)
当我们的训练算法最小化正则化后的目标函数 J^</