Flink编程练习,NYC出租车数据
环境配置
-
首先确保已经下载好flink依赖,并从Github下载代码。
-
下载依赖数据,这里依赖的是纽约出租车数据,可以使用命令行下载:
-
wget http://training.data-artisans.com/trainingData/nycTaxiRides.gz wget http://training.data-artisans.com/trainingData/nycTaxiFares.gz
-
由于本项目使用java编译,而源文件有scala,为了忽略scala的错误,这里需要指定scala的SDK:

项目
数据设置
使用IDEA打开该maven项目,首先需要找到依赖的文件路径:

可

这篇博客介绍了使用Flink进行NYC出租车数据的清洗实践。首先讲解了环境配置,包括下载Flink和项目代码,以及设置Scala SDK。接着详细阐述了项目的数据设置,数据来源是纽约出租车数据,并使用event-time。主要关注了`RideCleansingExercise`和`RideCleansingTest`两个部分,前者在执行时会遇到`filter`方法未定义的问题,后者包含测试类,通过比较预期结果来验证函数的正确性。在`RideCleansingTest`中,测试了GPS点是否在NYC的判断函数。最后提示读者需要修改`filter`方法来完成数据过滤。
最低0.47元/天 解锁文章
287

被折叠的 条评论
为什么被折叠?



