IDEA配置flink开发环境及local集群代码测试

本文详细介绍如何在本地IDEA环境中搭建Flink开发环境,包括配置Maven项目、引入依赖、编写BatchWordCountJava示例代码及调试过程。同时,分享了如何配置pom.xml进行打包,以及在CentOS服务器上运行Flink程序的方法。

背景:

最近公司需要引入flink相关框架做一些大数据报表分析的任务,之前没有实际接触过flink,所以需要学习一下。此外,防止看完就忘,也为了后续的回顾学习,因此在这里做一个整理,也希望帮助到有需要的朋友。

环境准备:

我这里是在自己的笔记本上搭建的环境

  1. VMware 安装centos7虚拟机 并配置好网络等
  2. win10安装idea 并配置maven(要求3.0以上,我用的3.6.2)
  3. flink-1.7.2-bin-hadoop27-scala_2.12.tgz
  4. jdk(要求1.8以上)

了解到有三种配置idea开发flink的方式

  1. 通过cmd运行mvn archetype:generate来生成flink模板项目,然后mvn clean package进行编译,之后导入idea即可开发

  2. 直接在idea中创建一个maven项目(可以是空的maven项目,也可以通过选择archetype创建模板项目,模板会将依赖生成好,不需要很大的修改),然后在pom中配置flink相关依赖即可开发

  3. curl url...获取模板项目,导入idea即可开发  

 我这里只试了1和2两种方式,都可以。这里以第2种空模板的方式为例,最后面附带一个通过arachetype创建的截图。

1.首先创建一个空的maven项目

2.然后修改pom.xml文件,引入需要的依赖(可以在这里找依赖)

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>asn</groupId>
    <artifactId>flinkLearn</artifactId>
    <version>1.0-SNAPSHOT</version>
    <dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-java -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>1.7.2</version>
            <scope>provided</scope>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-java -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_2.12</artifactId>
            <version>1.7.2</version>
            <scope>provided</scope>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-scala -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-scala_2.12</artifactId>
            <version>1.7.2</version>
            <scope>provided</scope>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-scala -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-scala_2.12</artifactId>
            <version>1.7.2</version>
            <scope>provided</scope>

        </dependency>
    </dependencies>
</project>

<scope>provided</scope>可以保证在打包的时候不会把依赖的jar包也打进去,避免跟flink集群中的包冲突。但是在本地run的时候可能需要注释掉。也就是说只有打包的时候才使用。

3.等带maven将相关依赖下载下来(这个时间有点长,半小时多)

4.依赖下载完之后就可以开发flink程序了,下面是两个wordcount程序BatchWordCountJava和SocketWindowWordCountJava

 

 

 不知道为什么,我在虚拟机上下载的netcat不能有效监听端口(nc -l 9000),Windows本地的flink程序会报连接超时。但是下载netcat到Windows上,使用Windows的cmd监听是可以的,具体可以参考这里。这里先测试批量计算。下面是完整代码

package wordCount;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;

public class BatchWordCountJava {
    public static void main(String[] args) throws Exception {
        String inputPath = "/opt/testBatch.txt";
        String outPath = "/opt/output";
        //获取运行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        //获取数据源
        DataSource<String> text = env.readTextFile(inputPath);

        AggregateOperator<Tuple2<String, Integer>> sum = text.flatMap(new Tokenizer()).groupBy(0).sum(1);

        sum.writeAsCsv(outPath,"\n"," ").setParallelism(1);
        env.execute();
    }

    public static class Tokenizer implements FlatMapFunction<String, Tuple2<String,Integer>>{

        @Override
        public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) throws Exception {
            String[] split = s.toLowerCase().split("\\s+");
            for (String word:split){
                if (word.length()>0){
                    collector.collect(new Tuple2<>(word,1));
                }
            }
        }
    }
}

可以现在本地测试之后再打包到服务器上测试,只需要注意打包的时候修改输入文件路径和输出结果路径。(代码中的路径是我服务器上的路径,各位需要自己修改)

5.如果本地没问题,接下来需要打包,打包的话需要在pom中做些新的配置,下面是完整的配置

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>asn</groupId>
    <artifactId>flinkLearn</artifactId>
    <version>1.0-SNAPSHOT</version>
    <dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-java -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>1.7.2</version>
            <scope>provided</scope><!-- 这个主要是保证打包的时候不会把额外的依赖也打包,避免跟集群中的包冲突 -->
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-java -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_2.12</artifactId>
            <version>1.7.2</version>
            <scope>provided</scope>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-scala -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-scala_2.12</artifactId>
            <version>1.7.2</version>
            <scope>provided</scope>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-scala -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-scala_2.12</artifactId>
            <version>1.7.2</version>
            <scope>provided</scope>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <!-- 编译插件 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                    <encoding>UTF-8</encoding>
                </configuration>
            </plugin>
            <!-- scala编译插件 -->
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.1.6</version>
                <configuration>
                    <scalaCompatVersion>2.12</scalaCompatVersion>
                    <scalaVersion>2.12</scalaVersion>
                    <encoding>UTF-8</encoding>
                </configuration>
                <executions>
                    <execution>
                        <id>compile-scala</id>
                        <phase>compile</phase>
                        <goals>
                            <goal>add-source</goal>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                    <execution>
                        <id>test-compile-scala</id>
                        <phase>test-compile</phase>
                        <goals>
                            <goal>add-source</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <!-- 打jar包插件(会包含所有依赖) -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>2.6</version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest>
                            <!-- 这里可以设置jar包的入口类(可选) 如果不设置,可以在命令行run jar包的时候通过-c指定入口类-->
                            <mainClass>wordCount.BatchWordCountJava</mainClass>
                        </manifest>
                    </archive>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
</project>

从cmd中进入当前项目所在目录,执行mvn clean package进行打包,之后会在target文件夹中生产两个jar包(一个带依赖)

选择第二个带依赖的jar包上传到centos中,之后就可以启动flink运行这个程序了(保证存在对应的文件路径)

[root@flink1 flink-1.7.2]# bin/flink run ../flinkLearn-1.0-SNAPSHOT-jar-with-dependencies.jar

//显式指定入口类
//bin/flink run -c xxx ../flinkLearn-1.0-SNAPSHOT-jar-with-dependencies.jar

之后就能看到有output文件生成,且通过webui也可以看到任务执行情况。

(flink集群启动主要有三种模式,一种是直接start-cluster.sh启动本地模式,一种是standlone模式,还有一种就是yarn模式)

通过arachetype创建maven项目:

### 如何在 IntelliJ IDEA配置并启动 Apache Flink #### 创建 Maven 项目 可以通过 IntelliJ IDEA 和 Maven 结合来创建一个 Flink 项目。如果开发者更倾向于直接使用 IDE,则可以在 IntelliJ IDEA 内部完成项目的初始化工作,而无需依赖外部命令行工具[^1]。 #### 添加 Flink 依赖项 为了使项目能够支持 Flink 功能,在 `pom.xml` 文件中需添加必要的 Maven 依赖项。以下是典型的 Flink 依赖项配置: ```xml <dependencies> <!-- Flink dependencies --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.11</artifactId> <version>1.8.0</version> </dependency> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-clients_2.11</artifactId> <version>1.8.0</version> </dependency> </dependencies> ``` 上述代码片段展示了如何引入用于流处理的核心库以及客户端 API 库[^3]。 #### 配置运行环境 当项目结构搭建完成后,需要设置本地运行环境以便测试 Flink 程序。这通常涉及以下几个方面: - **Java 版本**: 确保 JDK 安装版本满足 Flink 要求 (例如 Java 8 或更高)。 - **Flink 版本一致性**: 所使用的 Flink JAR 包应与目标集群中的 Flink 版本保持一致。 #### 启动本地 Flink 实例 要在 IntelliJ IDEA 中运行 Flink 程序,可以采用以下方法之一: 1. 使用内置的 MiniCluster 来模拟分布式执行环境; 2. 连接到已部署好的独立模式或者 YARN 模式的 Flink 集群。 下面是一个简单的例子展示如何利用 LocalStreamEnvironment 在单机环境中运行任务: ```java import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class SimpleFlinkJob { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // Add your data sources and transformations here env.execute("Local Flink Job"); } } ``` 此脚本定义了一个基础的数据流应用,并调用了 execute 方法触发计算过程。 #### 远程调试配置 对于那些希望监控生产环境下实际行为的应用场景而言,远程调试功能显得尤为重要。通过适当调整 JVM 参数并与 IDE 建立连接通道,即可实现这一需求[^2]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值