2020中国高校计算机大赛·华为云大数据挑战赛正式赛题——船运到达时间预测整理分析6.21版本(持续更新~)
写在前面:大家好!我是练习时长半年的在读本科生数据小白JerryX,各位数据挖掘大佬有什么问题和建议多多指教!!欢迎大家多多点赞,多多评论,多多批评指正!!
2020中国高校计算机大赛·华为云大数据挑战赛正式赛赛程不知不觉已经过了三周了,JerryX前一段时间学业比较繁忙,同时也在搞另一个比赛的答辩,所以也没怎么做这个比赛,今天开始正式和队友集结起来开始把高校赛搞起来啦。希望可以和各位优秀队伍多多交流!!也希望能和大家在接下来一个多月的时间内共同学习、成长!!
我们队的初步数据分析链接参见队友之前整理的blog
目录
0 背景简介
在企业全球化业务体系中,海运物流作为其最重要的一项支撑。其中,船运公司会和数据供应公司进行合作,对运输用的船通过GPS进行定位以监控船的位置;在运输管理的过程中,货物到达目的港的时间是非常重要的一项数据,那么需要通过船运的历史数据构建模型,对目的港到达时间进行预测,预测时间简称为ETA(estimated time of arrival),目的港到达时间预测为ARRIVAL_ETA。
本次大赛提供历史运单GPS数据、历史运单事件数据、港口坐标数据,预测货物运单的到达时间,对应“历史运单事件”数据中EVENT_CODE字段值为ARRIVAL AT PORT时EVENT_CONVOLUTION_DATE的时间值。
1 比赛数据
大赛提供脱敏后的训练数据及测试数据,训练数据集包括:历史运单GPS数据、历史运单事件数据、港口坐标数据,这些数据主要用于参赛队伍训练模型,制定预估策略;测试运单数据为不同运单、运输过程中的不同位置所构成,供选手测试对应的ETA时间。
货物运单在船运过程中,会产生大量的GPS运单数据,记录为“历史运单GPS数据”;货物运单在船运过程