spark streaming 结合kafka 精确消费一次将结果保存到redis

最新推荐文章于 2023-05-16 16:39:51 发布

原创

最新推荐文章于 2023-05-16 16:39:51 发布 · 1.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#spark streaming #kafka #redis

本文介绍了如何在Scala环境下，利用Spark Streaming结合Kafka进行数据消费，并确保幂等性，将处理结果精确地保存到Redis中。涉及的工具有Scala 2.12.12、JDK 1.8、IDEA、Maven、Spark 3.0.1、Kafka 0.10、Hadoop 3.2.1、HBase 2.2.5和Redis 5.0。文章内容包括Redis事务处理及Spark Streaming从Kafka读取数据并聚合后存储到Redis的实现方法。

spark streaming 结合kafka 精确消费一次将结果保存到redis

1. 环境

scala 2.12.12
jdk 1.8
idea 2020.1
maven 3.6.3
spark 3.0.1
kafka 0.10
hadoop 3.2.1
hbase 2.2.5 （另外一个明细数据幂等处理，保存到habse）
redis 5.0
pom

<!-- 定义了一些常量 -->
    <properties>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <scala.version>2.12.12</scala.version>
        <spark.version>3.0.1</spark.version>
        <hbase.version>2.2.5</hbase.version>
        <hadoop.version>3.2.1</hadoop.version>
        <encoding>UTF-8</encoding>
    </properties>

    <dependencies>
        <!-- 导入scala的依赖 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <!-- 导入spark streaming的依赖-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.12</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-10_2.12</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.49</version>
        </dependency>

        <dependency>
            <groupId>redis.clients</groupId>
            <artifactId>jedis</artifactId>
            <version>3.3.0</version>
        </dependency>

        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.73</version>
        </dependency>

        <!-- -->
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>druid</artifactId>
            <version>1.1.23</version>
        </dependency>

        <!-- 导入Hadoop依赖 -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>

        <!-- Hbase Client -->
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-client</artifactId><