机器学习数据集划分、评估指标与重采样技术详解
1. 训练集、测试集和验证集
监督机器学习的目标是能够正确预测或分类未见过的示例的目标。如果使用与训练模型相同的样本评估模型性能,可能会误判模型的性能。为了正确评估学习算法的性能,需要预留一些数据用于测试,这些预留的数据称为测试集。
当在数据集上训练好模型后,需要通过调整学习算法的一些参数来提高模型性能。但不能使用测试集进行模型调优,因为这样会使模型参数在测试数据集上进行训练,导致测试集无法作为未见过的样本进行模型评估。因此,通常将整个数据集划分为:
- 训练集:用于训练模型。
- 验证集:用于调整模型。
- 测试集:用于评估模型的有效性。
常见且简单的策略是将 60% 的数据集用于训练,20% 用于验证,最后 20% 用于测试,即 60/20/20 规则。
以下是数据集划分的流程:
graph LR
A[完整数据集] --> B{划分}
B --> C[训练集 60%]
B --> D[验证集 20%]
B --> E[测试集 20%]
2. 偏差与方差权衡
偏差与方差的概念是机器学习的核心,对于理解模型的性能以及指出模型改进的方向至关重要。
- 高偏差 :当模型过度简化学习问题或未能准确捕捉数据集中输入特征之间的复杂关系时,模型具有高偏差。高偏差会使模型无法对新示例进行泛化。
- 高方差
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



