20、机器学习中的训练、测试与验证策略

最新推荐文章于 2025-11-25 12:20:36 发布

java5

最新推荐文章于 2025-11-25 12:20:36 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的视觉之旅文章标签：机器学习训练集测试集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/java5/article/details/151035715

深度学习的视觉之旅专栏收录该内容

68 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的训练、测试与验证策略

1. 评估系统性能的挑战

在机器学习领域，目前并没有一种算法或公式能直接告诉我们训练好的分类器性能如何。就像自然科学家需要通过实验来了解真实世界中会发生什么一样，我们也必须通过实验来评估系统的性能。

2. 测试数据的重要性及使用规则

2.1 测试数据的定义与作用

确定系统在新的、未见过的数据上表现的最佳方法，就是给它提供这些数据并观察其表现。我们将这些未见过的数据点或样本称为测试数据或测试集。和训练数据一样，我们希望测试数据能代表系统发布后会遇到的真实数据。

2.2 训练与测试流程

通常的做法是先用训练数据对系统进行训练，直到我们认为它达到了最佳性能。然后使用测试数据对其进行评估，以此了解系统在现实世界中的可能表现。

2.3 性能改进与过拟合避免

如果系统在测试数据上的表现不够好，就需要进行改进。增加训练数据量通常是提升性能的有效方法，同时还能使训练集更加多样化。例如，在识别狗的分类器中，找到更多不同品种带有特定特征的狗的样本，能避免分类器因过拟合而出现错误。

2.4 测试数据使用规则

在训练和测试过程中，一个关键规则是绝不能从测试数据中学习。如果将测试数据放入训练集，会破坏其作为客观衡量系统准确性的价值，导致数据泄露问题。为避免这种情况，我们应在训练开始前就将测试数据从训练数据中分离出来，仅在训练结束后使用一次来评估系统质量。如果系统在测试集上表现不佳，不能简单地继续训练再测试，而要重新初始化系统并使用更多数据或更长时间进行训练。

2.5 数据分割示例

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。