利用深度学习预测多伦多有轨电车延误
1. 问题引入
在处理深度学习项目时,数据和明确的问题是关键。这里以预测多伦多有轨电车延误为例,该数据集由多伦多市公开提供(http://mng.bz/4B2B),记录了自2014年1月以来该市有轨电车系统遇到的每一次延误情况。目标是预测并预防有轨电车延误,减少城市交通拥堵。
在二战前,北美许多城市都有有轨电车系统。战后,多数城市用巴士取代了有轨电车,部分城市保留少量有轨电车作为旅游景点。而多伦多保留了广泛的有轨电车网络,成为公共交通系统的重要组成部分。如今,有轨电车服务于多伦多五条最繁忙地面路线中的四条,每个工作日运送多达30万名乘客。
有轨电车相较于巴士和地铁有诸多优势,如使用寿命长、零排放、每位司机可搭载至少两倍乘客、建设和维护成本低、服务更灵活。但它也有两个明显缺点:易受普通交通阻碍影响,且难以绕过这些阻碍。当有轨电车被阻挡时,会导致有轨电车网络的连锁延误,并加剧城市繁忙街道的整体拥堵。
2. 选择该问题的原因
选择预测多伦多有轨电车延误问题而非常见商业问题(如客户流失预测、库存控制),主要有以下原因:
- 合适的数据集规模 :数据集规模适中(目前超过70,000行),既适合深度学习应用,又不会因数据量过大导致探索困难,也不会因数据量过小使深度学习无法有效检测信号。
- 实时更新 :数据集每几个月更新一次,有充足机会用模型未见过的数据进行测试。
- 真实原始 :该数据集是多年来为多个目的收集的,并非专门用于训练深度学习模型,存在许多错误和异常。处理这样
超级会员免费看
订阅专栏 解锁全文
51

被折叠的 条评论
为什么被折叠?



