概述:Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。本文主要介绍Flink下使用Java和Scala程序分别实现塞缪尔·厄尔曼《青春》的词频统计。
1、使用mvn命令创建Flink工程
(1) Java模板
mvn archetype:generate -DarchetypeGroupId=org.apache.flink -DarchetypeArtifactId=flink-quickstart-java -DarchetypeVersion=1.8.0 -DarchetypeCatalog=local
说明:需要自定义groupId、artifactId和version,如图

进入flink-example-java目录,查看生成的目录树

2、将maven工程导入IDE(IDEA或Eclipse等)
3、开发流程
- set up the batch execution environment
- create execution plan for Flink(get some data from the environment)
- transform the resulting DataSet<Strin

本文详细介绍了如何使用Apache Flink进行词频统计。通过创建Maven工程,使用Java和Scala两种方式实现《青春》一文的词频统计,包括批处理和实时流处理的程序开发流程。在运行实时流处理程序前,需启动服务器监听特定端口。
最低0.47元/天 解锁文章
2058

被折叠的 条评论
为什么被折叠?



