经验风险最小化与结构风险最小化
经验风险最小化
经验风险最小化模型如下:
min1N∑i=1NL(yi,f(xi))min1N∑i=1NL(yi,f(xi))
经验风险最小化的目标是使模型预测出来的结果与真实值尽量接近,但是这可能导致模型为了使预测结果接近真实值而使模型变得复杂,从而可能导致过拟合,即在训练集上效果很好,但是在测试集上效果却不好。
结构风险最小化
于是,为了使模型不过于复杂,就有了结构风险最小化模型:
min1N∑i=1NL(yi,f(xi))+λJ(f)min1N∑i=1NL(yi,f(xi))+λJ(f)
也就是在经验风险最小化模型基础上,加上正则化项J(f)J(f),正则化项可以是L1正则化,也可以是L2正则化L1正则化,也可以是L2正则化,通过正则化项对模型的参数进行限制。
损失函数归纳
| 损失函数 | 公式 | 应用 |
|---|---|---|
| 0-1损失函数 | l(y,y^)={1,y≠y^1,y=y^l(y,y^)={1,y≠y^1,y=y^ | |
| 交叉熵损失函数 | loss=−∑[y^lny+(1−y^)ln(1−y)]loss=−∑[y^lny+(1−y^)ln(1−y)] | 逻辑回归 |
| hinge损失函数 | loss=max(0,1−y^∗y)loss=max(0,1−y^∗y) | SVM |
| 平方误差损失函数 | loss=∑(y^−y)2loss=∑(y^−y)2 | 线性回归 |
* 在神经网络中,当用sigmoid作为激活函数,用平方误差作为损失函数时,可能会导致梯度消失。此时,若用交叉熵作为损失函数,则可以避免梯度消失
本文探讨了经验风险最小化和结构风险最小化在机器学习中的应用,对比了两种方法的特点,并介绍了几种常见的损失函数,如0-1损失函数、交叉熵损失函数等。
2197

被折叠的 条评论
为什么被折叠?



