街车延误预测模型训练全解析
1. 训练目标与数据集划分
在街车延误预测模型的训练中,我们主要通过监控两个指标来引导模型训练,以达成整体目标:
- 召回率(Recall) :计算公式为真阳性 / (真阳性 + 假阴性)。
- 验证准确率(Validation accuracy) :即模型在验证数据集上预测正确的比例。
原始数据集记录少于 100,000 条,经过重构后,现在拥有超过 200 万条记录。为了评估模型性能,我们需要将数据集划分为以下子集:
- 训练集(Train) :用于训练模型的数据集子集。
- 验证集(Validate) :在模型训练过程中用于跟踪模型性能的数据集子集。
- 测试集(Test) :在训练过程中不使用,训练完成后用于对模型进行最终验证,使用的是模型从未见过的数据。
对于数据集的分配比例,我选择了 60% 用于训练,20% 用于验证,20% 用于测试。这个比例在保证有足够大的训练集让模型提取有效信息并获得良好性能的同时,也确保了验证集和测试集有足够的数据来检验模型在未见数据上的表现。当然,70/15/15 的比例也是合理的选择。对于少于数百万条记录的数据集,验证集和测试集的比例不应低于 10%,以确保有足够的数据来跟踪训练迭代过程中的性能(验证集),以及有足够的保留数据(测试集)来应用于训练好的模型,以确保在未见数据上的充分性能。
2. 初始训练运行
在对训练运行进行优化之前
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



