Flink编程练习(一)

这篇博客介绍了使用Flink进行NYC出租车数据的清洗实践。首先讲解了环境配置,包括下载Flink和项目代码,以及设置Scala SDK。接着详细阐述了项目的数据设置,数据来源是纽约出租车数据,并使用event-time。主要关注了`RideCleansingExercise`和`RideCleansingTest`两个部分,前者在执行时会遇到`filter`方法未定义的问题,后者包含测试类,通过比较预期结果来验证函数的正确性。在`RideCleansingTest`中,测试了GPS点是否在NYC的判断函数。最后提示读者需要修改`filter`方法来完成数据过滤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Flink编程练习,NYC出租车数据

环境配置

本项目参考这里setup

  • 首先确保已经下载好flink依赖,并从Github下载代码。

  • 下载依赖数据,这里依赖的是纽约出租车数据,可以使用命令行下载:

    • wget http://training.data-artisans.com/trainingData/nycTaxiRides.gz
      wget http://training.data-artisans.com/trainingData/nycTaxiFares.gz
      

由于本项目使用java编译,而源文件有scala,为了忽略scala的错误,这里需要指定scala的SDK:

54449085480

项目

数据设置

使用IDEA打开该maven项目,首先需要找到依赖的文件路径:

54448844030

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值