有轨电车延误预测模型的优化与拓展
1. 为有轨电车延误预测项目添加季节或一天中的时间
为了将天气数据纳入有轨电车延误预测的深度学习项目,需要对模型训练代码和评分代码进行相应的更改。以下是具体的更改内容:
|代码类型|具体更改|
| ---- | ---- |
|模型训练代码(streetcar_DL_refactored_pipeline.ipynb)| - 调用 Dark Sky API 获取训练数据集涵盖期间的天气数据
- 更新 prep_merged_data() 以合并天气数据
- 更新 def_col_lists() 以包含天气列|
|评分代码(actions.py)| - 使用多伦多市政厅的经纬度和当前日期/时间调用 Dark Sky API 获取当前天气数据
- 更新 score_cols 以包含天气列名称|
除了天气数据,还可以通过从现有数据集中派生新列来增强训练数据集。例如,从月份列派生季节列(值为 0 - 3 代表四个季节),从小时列派生一天中的时间列。一天中的时间列可以定义为五个值:
- 夜间
- 早高峰
- 中午
- 晚高峰
- 晚上
可以尝试不同的开始和结束时间来定义这些类别,以观察对模型性能的影响。
2. 插补:处理不良值记录的替代方法
在之前的实验中,发现去除包含不良值(如无效路线)的记录后,模型性能更好。但去除这些记录也会导致数据丢失,例如在 2019 年底之前的延误数据中,去除不良记录后大约损失了 20% 的记录。
插补是一种替代方法,它通过用另一个值替换缺失值来保
超级会员免费看
订阅专栏 解锁全文
954

被折叠的 条评论
为什么被折叠?



