【机器学习导引】ch2-模型评估与选择

FOUR_A

于 2024-09-12 21:00:43 发布

阅读量801

点赞数 5

CC 4.0 BY-SA版权

分类专栏：机器学习导引文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42932602/article/details/142185790

文章目录

经验误差与过拟合（Empirical error &overfitting）
评估方法（Evaluation method）
性能度量（Performance measure）
偏差与方差（Bias and Variance）
- 泛化误差分解公式：
- - 各项含义：
  - 结论：

经验误差与过拟合（Empirical error &overfitting）

经验误差是指学习器 $f$ 在训练集上表现出的误差。公式为：

$R_{emp}(f) = \frac{1}{m} \sum_{i=1}^{m} L(f(x_i), y_i)$

其中 $L(f(x_i), y_i)$ 是损失函数，表示模型在训练样本 $x_i, y_i)$ 上的误差。
泛化误差是指学习器 $f$ 在未来的未见样本上所表现出的误差。公式为：

$\mathbb{E}[L(f(x), y)] = \int L(f(x), y) dP(x, y)$
- 这里 $P (x, y)$ 是样本的真实分布， $L (f (x), y)$ 表示模型对新的样本 $(x, y)$ 的误差。
- 公式右侧的积分表达式说明了**泛化误差是模型在整个真实数据分布下的平均误差，**即模型不仅要在训练数据上表现好，还需要在未来可能遇到的未知样本上表现良好。

要点：

经验误差并非越小越好，因为过度减小经验误差可能导致模型过拟合（即模型在训练集上表现非常好，但在新样本上表现差）。
常见的损失函数与适用范围

1. 均方误差（Mean Squared Error, MSE）
- 公式： $\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2$
- 适用场景：主要用于回归任务，例如预测房价或气温。
- 解释：MSE 计算的是真实值 $y_i$ 与预测值 $\hat{y_i}$ 之间的平方差。这个损失函数惩罚较大的误差，因此对异常值较为敏感。
2. 均方根误差（Root Mean Squared Error, RMSE）
- 公式： $\sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2}$
- 适用场景：同样适用于回归任务，其单位与输出变量一致，因此易于解释。
- 解释：与 MSE 类似，但在计算后进行了平方根处理，避免了过度放大大误差的影响。
3. 平均绝对误差（Mean Absolute Error, MAE）
- 公式： $\frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y_i}|$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

FOUR_A 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。