机器学习基础与深度学习概念解析
正则化:约束优化视角
正则化除了添加惩罚项,还可以通过对模型参数向量的大小添加约束来实现。可以构建如下优化问题:
$$
\begin{align }
&\text{argmin} {C} \sum {i=1}^{n}(y_{i}-\hat{y} {i})^2\
&\text{such that } |\theta| {2}^{2} \leq b
\end{align }
$$
其中 $b$ 是一个常数。
可以通过创建新的拉格朗日公式,将这个有约束的最小化问题转化为无约束的最小化问题:
$$
L(X,Y,\theta,\lambda)=\sum_{i=1}^{n}(y_{i}-\hat{y} {i})^2+\lambda(|\theta| {2}^{2}-b)
$$
根据Karush - Kuhn - Tucker条件,要最小化拉格朗日成本函数,有以下重要条件:
- 关于 $\theta$ 的 $L$ 的梯度 $\nabla_{\theta}L(\theta,\lambda)$ 应为零向量,化简后得到:$\theta=(X^{T}X + \lambda I)^{-1}X^{T}Y$。
- 在最优点,$\lambda(|\theta| {2}^{2}-b)=0$ 且 $\lambda \geq 0$。如果考虑正则化,即 $\lambda>0$,那么 $|\theta| {2}^{2}-b = 0$。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



