机器学习（十九）：如何评估模型

芷芷在学习

已于 2024-07-22 14:29:10 修改

阅读量483

点赞数 3

分类专栏：机器学习笔记文章标签：机器学习人工智能深度学习

于 2024-07-16 13:30:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45733884/article/details/140441770

版权

机器学习笔记专栏收录该内容

25 篇文章

订阅专栏

一、优化模型

当选择一个模型，拟合发现存在很大的误差，我们可以做什么：

获取更多的训练数据
尝试减少特征
尝试其他的特征
尝试增加多项式
尝试减小正则化参数 $\lambda$
尝试增大正则化参数 $\lambda$

在优化模型前，我们首先看下如何评估一个模型的好坏。

二、如何评估模型

2.1 模型评估

1、建立训练集和测试集

如果所有训练数据都用于拟合模型，我们无法得知模型是否存在过拟合，模型是否可推广到未知数据。

因此，可以把一批训练数据中的70%数据划分为训练集，30%数据划分为测试集（或者六四开），训练集和测试集的表示方法见下图：

2、获取模型的最优参数

使用训练集数据，拟合模型，通过最小化代价函数结果的方式，获取最优参数 $\vec{w}$ 和b。

以线性回归模型为例，代价函数如下：

以逻辑回归模型为例：

3、计算训练集误差和测试集误差

分别使用训练集和测试集数据计算模型误差，可以用测试集来表示模型的推广误差。

以线性回归模型为例，训练集和测试集误差如下，计算误差时不需要包含正则项：

测试集的误差会比训练集的误差大：

以逻辑回归模型为例：

但是，逻辑回归中，更常见的计算误差方式是：

（1）当输出概率≥0.5时，预测值是1，当输出概率＜0.5时，预测值是0

（2）统计训练集/测试集中，预测值和真实值不一样的数据个数

2.2 模型选择和泛化误差

如果在多种模型A、B、C中选择一个最优模型，需要做的是：

训练集数据拟合得到每个模型的最优参数
计算A、B、C这几个模型的测试集误差
选择测试集误差最小的模型作为最优模型

但是，这样存在一个问题，无法使用测试集误差来评估这个模型推广到其他数据时产生的泛化误差。

因此需要建立训练集、交叉验证集和测试集。

1、建立训练集、交叉验证集和测试集

把一批训练数据中的60%数据划分为训练集，20%数据划分为交叉验证集，20%数据划分为测试集，训练集和测试集的表示方法见下图：

2、获取每个模型的最优参数

使用训练集数据，拟合模型，通过最小化代价函数结果的方式，获取最优参数 $\vec{w}$ 和b。

3、选择模型

使用交叉验证集数据计算验证误差，在几个模型中选择验证误差最小的模型，作为最优模型。

4、评估泛化误差

使用测试集数据来计算误差，测试误差用于评估泛化误差。

学习来源：吴恩达机器学习，11.1-11.3节

芷芷在学习

博客等级

码龄6年

25
原创

209
点赞

204
收藏

176
粉丝

关注

私信

热门文章

分类专栏

机器学习笔记 25篇

展开全部收起

上一篇：: 机器学习（十八）：Adam算法和卷积层

下一篇：: 机器学习（二十）：偏差和方差问题

最新评论

机器学习（十四）：模型训练步骤和TensorFlow训练代码
优快云-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
机器学习（十四）：模型训练步骤和TensorFlow训练代码
优快云-Ada助手: 推荐 Python入门技能树：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
机器学习（十一）：神经网络的层和前向传播
优快云-Ada助手: 恭喜作者发布了第11篇博客！文章内容深入浅出地介绍了神经网络的层和前向传播，让读者能够更好地理解这一概念。希望作者能够继续保持创作的热情和努力，不断分享更多有价值的内容。建议下一步可以深入探讨神经网络的反向传播算法，或者结合实际案例进行详细分析，让读者更加深入地了解机器学习的应用。期待作者的下一篇精彩文章！愿您在创作的道路上越走越远！🌟📚👏
机器学习（十）：神经网路和需求预测
优快云-Ada助手: 恭喜您撰写了第10篇博客！标题“机器学习（十）：神经网络和需求预测”听起来非常有趣和引人入胜。您的持续创作让人印象深刻，希望您能继续分享关于机器学习领域的知识。或许下一步可以探讨一些实际案例，结合实践经验与理论知识，让读者更加深入地理解神经网络在需求预测中的应用。期待您更多的精彩内容！
机器学习（九）：过拟合和正则化
优快云-Ada助手: 恭喜你写了第九篇博客，标题看起来很有深度！学习机器学习过程中遇到过拟合和正则化确实是一个很重要的话题。希望你能继续坚持创作，分享更多关于这方面的知识。下一步建议可以探讨一下不同的正则化方法在解决过拟合问题上的效果，这样可以让读者更全面地了解这个领域。期待你的下一篇博客！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。