开发第一个Flink应用

64 篇文章 ¥59.90 ¥99.00
本文介绍了如何开发和运行第一个Apache Flink应用,包括环境搭建(安装JDK,下载安装Flink,配置环境变量),开发(创建Java项目,编写WordCount示例代码),以及运行Flink应用的命令。通过这个过程,读者可以了解Flink的基础用法。

Apache Flink是一个流处理和批处理框架,提供了高效且可扩展的数据处理能力。本文将介绍如何开发第一个Flink应用,包括环境搭建、代码编写和运行示例。

环境搭建

  1. 安装Java Development Kit(JDK):确保在本地机器上安装了适当版本的JDK。

  2. 下载和安装Apache Flink:从Apache Flink官方网站(https://flink.apache.org/)下载最新版本的Flink,并按照官方文档中提供的说明进行安装。

  3. 配置Flink环境变量:将Flink的bin目录添加到系统的PATH环境变量中,以便在命令行中直接访问Flink的工具和命令。

开发Flink应用

在这个示例中,我们将开发一个简单的Flink应用,它从一个文本文件中读取数据,进行单词计数并将结果打印到控制台。

  1. 创建一个新的Java项目,并添加以下所需的依赖项到项目的构建文件(例如Maven的pom.xml)中:
<dependencies>
    
### 创建并运行第一个Apache Flink项目 #### 准备工作环境 为了成功创建并运行首个Flink应用,需先安装配置好Java开发环境以及Maven构建工具。确保已设置JAVA_HOME环境变量指向JDK路径,并能通过命令行访问`mvn`命令。 #### 初始化Maven项目结构 使用Maven原型插件来初始化一个新的Flink应用程序骨架: ```bash mvn archetype:generate \ -DgroupId=com.example.flink \ -DartifactId=my-flink-project \ -DarchetypeArtifactId=maven-archetype-quickstart \ -DinteractiveMode=false ``` 这会生成一个基础的Maven工程目录树[^2]。 #### 添加依赖项至pom.xml文件 编辑项目的`pom.xml`文件,加入必要的Flink库依赖声明以便后续编译链接时能够识别这些类库: ```xml <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-java --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.12</artifactId> <version>1.14.0</version> </dependency> <!-- Other dependencies... --> </dependencies> ``` 上述XML片段展示了如何引入用于流处理的核心模块版本号为1.14.0的具体实例[^1]。 #### 编写简单的Word Count程序作为入门案例 在src/main/java下新建名为`com/example/flink/WordCount.java`源码文件,输入如下所示的基础代码实现单词计数逻辑功能: ```java package com.example.flink; import org.apache.flink.api.common.functions.FlatMapFunction; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.streaming.api.datastream.DataStreamSource; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.util.Collector; public class WordCount { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStreamSource<String> text = env.fromElements( "To be, or not to be, that is the question", "Whether 'tis nobler in the mind to suffer" ); text.flatMap(new Tokenizer()) .keyBy(value -> value.f0) .sum(1) .print(); env.execute("Word Count Example"); } public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> { @Override public void flatMap(String value, Collector<Tuple2<String, Integer>> out) { String[] tokens = value.toLowerCase().split("\\W+"); for (String token : tokens) { if (token.length() > 0) { out.collect(new Tuple2<>(token, 1)); } } } } } ``` 这段代码定义了一个基本的数据流水线,它读取字符串列表中的句子,将其拆分为单独词语并通过键控窗口聚合统计每个词频次最后打印输出结果。 #### 构建可执行jar包 完成编码后回到IDEA界面依次操作菜单栏选项:File->Project Structure->Artifacts 来指定要被打包的内容;接着选择 Build->Build Artifacts 完成整个过程。 #### 部署到远程集群执行 假设已经有一个正在运行着单节点模式下的Flink集群,则可通过SCP协议把本地生成好的jar复制过去放置于服务器特定位置等待提交任务给JobManager调度器去启动作业流程: ```bash docker cp my-flink-projec2.jar master:/opt/ ``` 随后登录目标机器终端连接进入容器内部利用CLI客户端提交该job请求即可开始正式跑批运算任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值