Flink实现词频统计

本文详细介绍了如何使用Apache Flink进行词频统计。通过创建Maven工程,使用Java和Scala两种方式实现《青春》一文的词频统计,包括批处理和实时流处理的程序开发流程。在运行实时流处理程序前,需启动服务器监听特定端口。

概述:Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。本文主要介绍Flink下使用Java和Scala程序分别实现塞缪尔·厄尔曼青春》的词频统计。

1、使用mvn命令创建Flink工程

(1) Java模板

mvn archetype:generate -DarchetypeGroupId=org.apache.flink -DarchetypeArtifactId=flink-quickstart-java -DarchetypeVersion=1.8.0 -DarchetypeCatalog=local

说明:需要自定义groupId、artifactId和version,如图

进入flink-example-java目录,查看生成的目录树

2、将maven工程导入IDE(IDEA或Eclipse等)

3、开发流程

  • set up the batch execution environment
  • create execution plan for Flink(get some data from the environment)
  • transform the resulting DataSet<Strin
.大作业包含:封面(格式见附件3)、目录、正文。(格式要求参照见后面附件2)。 3.正文内容主要包括(提纲): ①数据准备flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple flink spark hive Hadoop orange banana apple ②MapReduce实现词频统计 ③Hive实现词频统计 ④Spark实现词频统计Flink实现词频统计 ⑥四种技术的对比分析 ⑦总结 备注: ①-⑦是提交文档的一级标题; 正文①中包含:数据描述、数据上传HDFS的过程; 正文②-⑤包含:环境及软件版本说明、代码实现、结果截图、结果说明; 正文⑥包含:原理上对比分析、结果分析; 正文⑦包含:总结大数据技术的理解和收获(不超500字)
最新发布
01-08
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值