经验风险最小化和结构风险最小化

最新推荐文章于 2023-08-02 11:08:26 发布

原创最新推荐文章于 2023-08-02 11:08:26 发布 · 1.5k 阅读

10 ·

CC 4.0 BY-SA版权

统计学习方法专栏收录该内容

9 篇文章

订阅专栏

本文探讨了监督学习中损失函数和风险函数的概念，解释了经验风险、经验风险最小化和结构风险最小化的原理，旨在帮助理解模型评估与优化。

1. 损失函数和风险函数

监督学习问题是在假设空间 $F\mathit{F}$ 中选取模型 $f$ 作为决策函数，对于给定的输入 $X$ ，由 $f (X)$ 给出相应的输出 $Y$ ,这个输出的预测值 $f (X)$ 与真实值 $Y$ 可能一样也可能不一样，用损失函数(loss function)来度量预测错误的程度。损失函数是 $f (X)$ 和 $Y$ 的非负实值函数，记作 $L (Y, f (X))$ 。

损失函数值越小，模型就越好，由于模型的输入输出 $(X, Y)$ 是随机变量，遵循联合分布 $P (X, Y)$ ，所以损失函数的期望是：
在这里插入图片描述
我们将这个函数称为“风险函数”或“期望损失”，对于这个函数我们可以这样理解：里面的 $x$ 和 $y$ 代表真实的输入和输出的数据点， $X$ 和 $Y$ 是真实的输入和输出的集合， $x$ 和 $y$ 同时出现的概率为 $P (x, y)$ ，而 $x$ 和 $y$ 的损失函数值是 $L (y, f (x))$ ，所以损失函数的期望就是给每一对输入输出数据点的损失函数值和概率之积求和。

计算上式的难点是 $P (x, y)$ 是未知的，所以根本无法计算期望损失，也就无法跟据这个函数值来衡量模型的好坏了。

为了解决这个问题，提出了“经验风险”的概念。

2. 经验风险

给定一个训练数据集：
在这里插入图片描述
模型 $f (X)$ 关于训练数据集的平均损失称为经验风险，记作 $R_{emp}$ ：

根据大数定理，当样本容量N趋于无穷的时候，经验风险 $R_{emp}$ 趋近于期望风险 $R_{exp}$ ，所以这里提出了用经验风险去估计期望风险。但是一般上的样本容量不会很大，所以用经验风险去估计期望风险的效果常常不理想，所以就要对经验风险进行矫正，这就引出了“经验风险最小化”和“结构风险最小化”这两个概念。