Flink实现词频统计

最新推荐文章于 2024-04-24 15:10:37 发布

原创

最新推荐文章于 2024-04-24 15:10:37 发布 · 3k 阅读

3 ·

CC 4.0 BY-SA版权

本文详细介绍了如何使用Apache Flink进行词频统计。通过创建Maven工程，使用Java和Scala两种方式实现《青春》一文的词频统计，包括批处理和实时流处理的程序开发流程。在运行实时流处理程序前，需启动服务器监听特定端口。

概述：Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。本文主要介绍Flink下使用Java和Scala程序分别实现塞缪尔·厄尔曼《青春》的词频统计。

1、使用mvn命令创建Flink工程

(1) Java模板

mvn archetype:generate -DarchetypeGroupId=org.apache.flink -DarchetypeArtifactId=flink-quickstart-java -DarchetypeVersion=1.8.0 -DarchetypeCatalog=local

说明：需要自定义groupId、artifactId和version，如图