Flink编程练习（一）

最新推荐文章于 2025-11-28 17:03:56 发布

原创

最新推荐文章于 2025-11-28 17:03:56 发布 · 1.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#Flink

这篇博客介绍了使用Flink进行NYC出租车数据的清洗实践。首先讲解了环境配置，包括下载Flink和项目代码，以及设置Scala SDK。接着详细阐述了项目的数据设置，数据来源是纽约出租车数据，并使用event-time。主要关注了`RideCleansingExercise`和`RideCleansingTest`两个部分，前者在执行时会遇到`filter`方法未定义的问题，后者包含测试类，通过比较预期结果来验证函数的正确性。在`RideCleansingTest`中，测试了GPS点是否在NYC的判断函数。最后提示读者需要修改`filter`方法来完成数据过滤。

Flink编程练习，NYC出租车数据

环境配置

本项目参考这里，setup。

首先确保已经下载好flink依赖，并从Github下载代码。

下载依赖数据，这里依赖的是纽约出租车数据，可以使用命令行下载：

wget http://training.data-artisans.com/trainingData/nycTaxiRides.gz
wget http://training.data-artisans.com/trainingData/nycTaxiFares.gz

由于本项目使用java编译，而源文件有scala，为了忽略scala的错误，这里需要指定scala的SDK：

54449085480

项目

数据设置

使用IDEA打开该maven项目，首先需要找到依赖的文件路径：

54448844030

可

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zealscott

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Flink初次练习（Source、Sink）

曦玥Moonight的博客

11-08

287

Flink的官网：https://flink.apache.org/ 使用的软件：IntelliJ IDEA Community Edition 第一个练习：读取目录下的文件并打印输出 package cn.tedu.dataset; import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.flink.api.java.operators.DataSource; import org.apache.flink.st

Flink编程练习（二）

crazy_scott的博客

12-18

2311

Map 班级学生成绩的随机生成输入：本班同学的学号输出：<学号，成绩> 数据准备首先需要一个stuID.csv文件，每一列为一个学号：然后将文件放入HDFS中： hdfs dfs put stuID.csv input 编写程序 import org.apache.flink.api.common.functions.MapFunction; impo...

参与评论您还未登录，请先登录后发表或查看评论

myflink：我的flink练习项目

02-22

myflink：我的flink练习项目

Flink常见面试问题(附答案)

最新发布

王同學的博客

11-28

297

Apache Flink是一个开源的流批一体大数据处理框架，具有低延迟、高吞吐的实时计算能力。它通过检查点机制实现容错，支持事件时间处理和水印机制处理乱序数据，提供滚动、滑动和会话三种窗口类型。Flink与Hadoop等批处理框架的主要区别在于其流式处理能力，支持Exactly-Once语义，可通过任务链优化执行效率。框架包含内存、文件系统和RocksDB三种状态后端，提供表格API和DataStream API两种编程接口，并能与Kafka等多种外部系统集成。性能优化方面需关注并行度设置、状态大小管理和数

Flink练习

hsiehchou的博客

06-01

637

Flink练习一、Flink开发IDEA环境搭建与测试 1、IDEA开发环境先虚拟机联网，然后执行yum -y install nc nc是用来打开端口的工具然后nc -l 9000 1.pom文件设置 <properties> <maven.compiler.source>1.8</maven.compiler.source> ...

Flink批处理练习

影子

03-04

263

idea、Flink、maven <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/..

Flink初次练习（Transformation）

曦玥Moonight的博客

11-08

260

Flink的官网：https://flink.apache.org/ 使用的软件：IntelliJ IDEA Community Edition 创建TransformationTest文件练习一将输入的数字均乘10 package cn.tedu.dataset; import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.java.ExecutionEnvironment; import

Flink入门编程

TU_JCN的博客

08-20

1207

1、Flink编程入门案例 1.1、实时处理代码开发开发flink代码，实现统计socket当中的单词数量第一步：创建maven工程，导入jar包 <dependencies>  <dependency> <groupId>org.apache.flink&l

Flink1.12-2021黑马 6-7Table&SQL +实战

紫蝶侠的博客

03-16

1490

7.Flink-Action综合练习课程目标 掌握使用Flink实现模拟双十一实时大屏统计 掌握使用Flink实现订单自动好评 1. Flink模拟双十一实时大屏统计 1.1 需求在大数据的实时处理中，实时的大屏展示已经成了一个很重要的展示项，比如最有名的双十一大屏实时销售总价展示。除了这个，还有一些其他场景的应用，比如我们在我们的后台系统实时的展示我们网站当前的pv、uv等等，其实做法都是类似的。今天我们就做一个最简单的模拟电商统计大屏的小例子，需求如下： 1.实时计算出当天零点截止到当前时

《初级》Flink API练习

huzechen的博客

08-29

385

加微信拉微信交流群微信：weixin605405145 Fliter import org.apache.flink.api.common.functions.FilterFunction; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api....

Flink热门电影实时统计（模仿双十一实时大屏统计）

qq_43521665的博客

04-03

795

《初级》Flink 窗口函数练习

huzechen的博客

08-29

491

加微信拉微信交流群微信：weixin605405145 ProcessWinFunOnWindow import org.apache.flink.api.java.tuple.Tuple; import org.apache.flink.api.java.tuple.Tuple3; import org.apache.flink.streaming.api.datastream.Dat...

Flink SQL DDL 和窗口函数实战（含代码练习）

Brave_heart4pzj的博客

12-13

6120

一、Flink SQL DDL 2019 年 8 月 22 日，Flink 发布了 1.9 版本，社区版本的 Flink 新增了一个 SQL DDL 的新特性，但是暂时还不支持流式的一些概念的定义，比如说水位。二、定义 create table 语句从 kafka 中读取数据可以体验一下，如果使用 ddl 的方式直接定义一个表从 kafka 中读取数据，并定义成一个表 CREATE TAB...

Flink 题目

weixin_48370579的博客

07-23

235

Flink 题目从MySql中读取数据，通过Flink处理之后在存储到MySql中 package com.wt.flink.homework import org.apache.flink.streaming.api.functions.source.SourceFunction import org.apache.flink.configuration.Configuration im...

Flink第二次练习（含流式数据初试）

曦玥Moonight的博客

11-15

286

Flink的官网：https://flink.apache.org/ 使用的软件：IntelliJ IDEA Community Edition CoreAPI： DataSet:专门处理离线数据,给离线数据处理设计了更多有针对性的API. env:ExecutionEnvironment DataStream:一般用于处理流式数据,也可以处理离线数据env:StreamExecutionEnvironment 【这一次用的是DataStream】创建SourceTest package cn.tedu.

flink 随笔 2-实践练习

hyoka的博客

11-30

203

Flink编程入门（一）

weixin_30731305的博客

12-29

167

1.Flink的引入这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时候默默的发展着。在国外一些社区，有很多人将大数据的计算...

flink 练习

xuwenxinxjzy的博客

06-11

271

111。

Flink面试题

张伟的专栏

05-30

1349

为什么使用 Flink 替代 Spark？全局快照首先是一个分布式应用，它有多个进程分布在多个服务器上；其次，它在应用内部有自己的处理逻辑和状态；第三，应用间是可以互相通信的；第四，在这种分布式的应用，有内部状态，硬件可以通信的情况下，某一时刻的全局状态，就叫做全局的快照。回到顶部。

flink练习scala

01-08

通过正确设定Maven项目的POM文件，并采用Scala作为编程语言，能够更好地发挥Apache Flink框架的优势来应对大规模数据集以及实时流处理任务[^3]。 ```xml  <groupId>org.apache.flink...