15、机器学习数据的训练、验证与测试

机器学习数据的训练、验证与测试

在机器学习中,确保模型按预期工作至关重要。为实现这一目标,我们会将数据进行不同的划分,以完成训练、验证和测试任务。

1. 数据划分

在理想情况下,应使用机器学习算法从未学习过的数据进行测试。但受时间和成本限制,等待新数据往往不可行。因此,我们可以采取以下数据划分方法:
- 简单的训练 - 测试划分 :将数据随机分为训练集(样本内)和测试集(样本外)。常见的划分比例是 25% - 30% 用于测试,其余 70% - 75% 用于训练。划分时要同时对响应变量和特征进行操作,保持它们之间的对应关系。
- 引入验证集的划分 :当需要调整学习算法时,参考测试集数据来检查调整效果并非良策,因为这会导致一种名为“窥探”的过拟合问题。为避免该问题,需引入第三个划分,即验证集。建议的划分比例是 70% 用于训练,20% 用于验证,10% 用于测试。

数据划分应随机进行,不考虑数据的初始顺序。否则,测试结果可能不可靠,因为数据顺序可能导致高估(存在有意义的顺序时)或低估(分布差异过大时)。要确保测试集分布与训练集分布差异不大,且划分后的数据具有顺序性。例如,检查数据集中的标识号是否连续。当样本数量较少时,即使严格遵循随机抽样,也可能无法使各数据集的分布相似。当样本数量 n 大于 10000 时,可以较为自信地创建随机划分的数据集;当数据集较小时,比较训练集和测试集的响应变量和特征的基本统计量(如均值、众数、中位数和方差)的相似性,有助于判断测试集是否合适。若统计量差异过大,不确定划分是否正确,可重新进行划分。

2. 交叉验证

训练

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值