Flink入门案例(Word Count)

本文通过Flink 1.9.0演示了Word Count的实现过程,包括安装、启动本地监听模式、作业提交、数据发送及查看输出结果,帮助理解流式数据处理。

Flink安装包下载【flink-1.9.0-bin-scala_2.11.tgz】

 

启动

[hadoop@hadoop flink-1.9.0]$ ./bin/start-cluster.sh
Starting cluster.
Starting standalonesession daemon on host hadoop.
Starting taskexecutor daemon on host hadoop.

 

启动本地监听模式端口9000

nc -l 9000

 

启动作业

./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000

 

登录本机8081地址,可以看到已经提交了一个作业正在运行

 

本地监听模式发送数据

[hadoop@hadoop flink-1.9.0]$ nc -l 9000
a
b b  
c c c
a b c

 

查看输出结果

[hadoop@hadoop log]$ tail -f flink-hadoop-taskexecutor-0-hadoop.out
a : 1
b : 2
c : 3
a : 1
c : 1
b : 1

至此也简单对流式数据有了直观的认知!

在 Apache Flink 中,WordCount 是一个经典的入门,用于展示流处理的基本操作。以下是一个使用 Scala 编写的简单 WordCount 案例,适用于 Flink 流处理 API。 ### 简单的 Flink WordCount(流处理) 该示通过读取来自 socket 的文本流,对输入的单词进行计数,并将结果打印到控制台。 ```scala package scala.org.example import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment import org.apache.flink.streaming.api.datastream.DataStream object FlinkTest { def main(args: Array[String]): Unit = { // 获取执行环境 val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment import org.apache.flink.streaming.api.scala._ // 从 socket 读取数据流 val text: DataStream[String] = env.socketTextStream("127.0.0.1", 9000, '\n') // 对数据流进行处理:分割单词、映射为键值对、按单词分组并求和 val windowCounts = text .flatMap(_.split("\\s+")) .map(word => (word, 1)) .keyBy(0) .sum(1) // 打印结果并设置并行度为1 windowCounts.print().setParallelism(1) // 启动 Flink 作业 env.execute("Socket Window WordCount") } // 定义带有计数的单词类 case class WordWithCount(word: String, count: Long) } ``` ### 运行步骤 1. **启动本地 Flink 集群** 在终端中进入 Flink 的 `bin` 目录,并执行以下命令启动本地集群: ```bash sh ./start-cluster.sh ``` 2. **启动 NetCat(nc)服务器** 在另一个终端中,使用以下命令启动 NetCat 服务器,监听端口 `9000`: ```bash nc -lk 9000 ``` 3. **提交 Flink 作业** 使用 Flink 的命令行工具提交作业,或直接在 IDE 中运行程序。确保 Maven 依赖已正确配置,并且程序已打包。 4. **输入测试数据** 在 NetCat 终端中输入一些文本,如: ``` hello flink hello world ``` Flink 程序将实时计算并输出每个单词的出现次数。 ### 示输出 假设输入以下文本: ``` hello flink hello world ``` 程序将输出类似以下内容: ``` (hello,1) (flink,1) (hello,2) (world,1) ``` 该示展示了 Flink 流处理的基本流程,包括数据流的创建、转换、聚合以及结果输出[^2]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值