Flink入门编程

最新推荐文章于 2025-01-16 16:21:06 发布

TUJC

最新推荐文章于 2025-01-16 16:21:06 发布

阅读量1.1k

点赞数

分类专栏： Hadoop生态框架

本文链接：https://blog.youkuaiyun.com/TU_JCN/article/details/108127860

版权

1、Flink编程入门案例

在这里插入图片描述

1.1、实时处理代码开发

（1）实现统计socket当中的单词数量

第一步：创建maven工程，导入jar包

<dependencies>
    <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-scala -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-streaming-scala_2.11</artifactId>
        <version>1.8.1</version>
    </dependency>

    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-scala_2.11</artifactId>
        <version>1.8.1</version>
    </dependency>

</dependencies>
<build>
    <plugins>
        <!-- 限制jdk版本插件 -->
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.0</version>
            <configuration>
                <source>1.8</source>
                <target>1.8</target>
                <encoding>UTF-8</encoding>
            </configuration>
        </plugin>
        <!-- 编译scala需要用到的插件 -->
        <plugin>
            <groupId>net.alchim31.maven</groupId>
            <artifactId>scala-maven-plugin</artifactId>
            <version>3.2.2</version>
            <executions>
                <execution>
                    <goals>
                        <goal>compile</goal>
                        <goal>testCompile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
        <!-- 项目打包用到的插件 -->
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
                <archive>
                    <manifest>
                        <mainClass></mainClass>
                    </manifest>
                </archive>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

第二步：开发flink代码统计socket当中的单词数量

开发flink代码实现接受socket单词数据，然后对数据进行统计

import org.apache.flink.streaming.api.scala.{
   DataStream, StreamExecutionEnvironment}
import org.apache.flink.streaming.api.windowing.time.Time

case class CountWord(word:String,count:Long)

object FlinkCount {
   

  def main(args: Array[String]): Unit = {
   
    //获取程序入口类
    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    //从socket当中获取数据
    val result: DataStream[String] = environment.socketTextStream("node01",9000)
    //导入隐式转换的包，否则时间不能使用
    import org.apache.flink.api.scala._
    //将数据进行切割，封装到样例类当中，然后进行统计
    val resultValue: DataStream[CountWord] = result
      .flatMap(x => x.split(" "))
      .map(x => CountWord(x,1))
      .keyBy("word")
     // .timeWindow(Time.seconds(1),Time.milliseconds(1))  按照每秒钟时间窗口，以及每秒钟滑动间隔来进行数据统计
      .sum("count")
    //打印最终输出结果
    resultValue.print().setParallelism(1)
    //启动服务
    environment.execute()
  }
}

第三步：打包上传到服务器运行
将我们的程序打包，然后上传到服务器进行运行，将我们打包好的程序上传到node01服务器，然后体验在各种模式下进行运行我们的程序

1、standAlone模式运行程序
第一步：启动flink集群
node01执行以下命令启动flink集群

cd /kkb/install/flink-1.8.1
bin/start-cluster.sh

第二步：启动node01的socket服务，并提交flink任务
node01执行以下命令启动node01的socket服务

nc -lk 9000

提交任务
将我们打包好的jar包上传到node01服务器的/kkb路径下，然后提交任务，注意，在pom.xml当中需要添加我们的打包插件，然后将任务代码进行打包，且集群已有的代码需要将打包scope设置为provided，在pom.xml将我们关于flink的jar包scope设置为provided打包，并将我们的jar-with-dependencies的jar包上传到node01服务器的/kkb路径下
在这里插入图片描述

node01执行以下命令提交任务

cd /kkb/install/flink-1.8.1/
bin/flink run  --class com.kkb.flink.demo1.FlinkCount /kkb/flink_day01-1.0-SNAPSHOT-jar-with-dependencies.jar

第三步：查询运行结果
node01查看运行结果

cd /kkb/install/flink-1.8.1/log
tail -200f flink-hadoop-taskexecutor-1-node01.kaikeba.com.out

注意：结果保存在以.out结尾的文件当中，哪个文件当中有数据，就查看哪个文件即可

（2）实时统计每隔1秒统计最近2秒单词出现的次数

pom依赖如下：

    <properties>
        <flink.version>1.9.0</flink.version>
        <scala.version>2.11.8</scala.version>
    </properties>

    <dependencies>
        <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-streaming-java_2.11</artifactId>
        <version>${
   flink.version}</version>
        </dependency>
    </dependencies>