机器学习模型评估、训练及优化全解析
1. 模型评估相关集合
1.1 验证集
验证集用于比较不同的模型,通过它可以选择出最佳的模型并调整超参数。在众多模型中,我们利用验证集来衡量每个模型的性能,从而挑选出表现最优的那个,并对其超参数进行优化。
1.2 训练开发集
当训练数据与验证集、测试集的数据可能存在不匹配的风险时,就需要用到训练开发集。这里的验证集和测试集的数据应尽可能接近模型投入生产后所使用的数据。训练开发集是从训练集中划分出来的一部分,模型不会在这部分数据上进行训练。具体操作流程如下:
1. 模型在训练集的其余部分进行训练。
2. 分别在训练开发集和验证集上对模型进行评估。
3. 若模型在训练集上表现良好,但在训练开发集上表现不佳,那么很可能是模型对训练集产生了过拟合。
4. 若模型在训练集和训练开发集上都表现良好,但在验证集上表现不佳,则说明训练数据与验证集、测试集的数据可能存在显著的不匹配问题,此时应尝试改进训练数据,使其更接近验证集和测试集的数据。
1.3 避免在测试集上调整超参数
如果使用测试集来调整超参数,会有对测试集过拟合的风险,并且所测量的泛化误差会过于乐观,这可能导致推出的模型性能不如预期。
2. 模型训练方法
2.1 特征众多时的训练方法
当训练集包含数百万个特征时,可以使用随机梯度下降(Stochastic Gradient Descent)或小批量梯度下降(Mini - batch Gradient Descent)。如果训练集能完全放入内存,也可以考虑使用批量梯度下降(Ba
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



