1. 损失函数和风险函数
监督学习问题是在假设空间F\mathit{F}F中选取模型fff作为决策函数,对于给定的输入XXX,由f(X)f(X)f(X)给出相应的输出YYY,这个输出的预测值f(X)f(X)f(X)与真实值YYY可能一样也可能不一样,用损失函数(loss function)来度量预测错误的程度。损失函数是f(X)f(X)f(X)和YYY的非负实值函数,记作L(Y,f(X))L(Y,f(X))L(Y,f(X)) 。
损失函数值越小,模型就越好,由于模型的输入输出(X,Y)(X,Y)(X,Y)是随机变量,遵循联合分布P(X,Y)P(X,Y)P(X,Y),所以损失函数的期望是:

我们将这个函数称为“风险函数”或“期望损失”,对于这个函数我们可以这样理解:里面的xxx和yyy代表真实的输入和输出的数据点,XXX和YYY是真实的输入和输出的集合,xxx和yyy同时出现的概率为P(x,y)P(x,y)P(x,y),而xxx和yyy的损失函数值是L(y,f(x))L(y,f(x))L(y,f(x)),所以损失函数的期望就是给每一对输入输出数据点的损失函数值和概率之积求和。
计算上式的难点是P(x,y)P(x,y)P(x,y)是未知的,所以根本无法计算期望损失,也就无法跟据这个函数值来衡量模型的好坏了。
为了解决这个问题,提出了“经验风险”的概念。
2. 经验风险
给定一个训练数据集:

模型f(X)f(X)f(X)关于训练数据集的平均损失称为经验风险,记作RempR_{emp}Remp:

根据大数定理,当样本容量N趋于无穷的时候,经验风险RempR_{emp}Remp趋近于期望风险RexpR_{exp}Rexp,所以这里提出了用经验风险去估计期望风险。但是一般上的样本容量不会很大,所以用经验风险去估计期望风险的效果常常不理想,所以就要对经验风险进行矫正,这就引出了“经验风险最小化”和“结构风险最小化”这两个概念。
3. 经验风险最小化和结构风险最小化
经验风险最小化问题其实就是模型最优问题:

也就是说在样本容量一定的情况下寻找最优的模型fff使得经验风险最小。
但是当样本容量过小的时候容易出现过拟合的现象,这时就提出了结构风险最小化的概念,为的就是防止过拟合,方法时添加惩罚项。惩罚项的作用是简化模型。

其中J(f)J(f)J(f)表示模型的复杂度,λ>=0\lambda>=0λ>=0是系数。
结构风险最小化:

也就是说在样本容量一定的情况下寻找既优秀又简单的模型使得结构风险最小。
本文探讨了监督学习中损失函数和风险函数的概念,解释了经验风险、经验风险最小化和结构风险最小化的原理,旨在帮助理解模型评估与优化。
811

被折叠的 条评论
为什么被折叠?



