Spark SQL案例（一）连续登录

最新推荐文章于 2024-06-01 08:43:14 发布

原创

最新推荐文章于 2024-06-01 08:43:14 发布 · 405 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #apache spark #分布式计算 #scala

本文介绍了一个基于Spark SQL的企业级案例，聚焦连续登录用户的计算。内容涵盖背景、需求（找出连续3天及以上登录的用户）、环境配置，以及DSL和SQL两种接口风格的代码实现。强调了编写清晰思路和可维护代码的重要性。

Spark SQL案例（一）连续登录

1. 背景

本身Spark SQL支持2种风格的API，sql和dsl，各有优势，实际企业开发时，看情况选择。
本文种案例是基于企业开发中常见场景抽象出来的案例，连续登录，连续打开等常见场景

2. 案例

需求，计算连续3天及以上登录用户
数据

guid01,2018-02-28
guid01,2018-03-01
guid01,2018-03-05
guid01,2018-03-02
guid01,2018-03-04
guid01,2018-03-06
guid01,2018-03-07
guid02,2018-03-01
guid02,2018-03-03
guid02,2018-03-02
guid02,2018-03-06

环境准备

idea 2020
jdk1.8
scala 2.12.12
maven 3.6.3
pom

<!-- 定义了一些常量 -->
    <properties>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <scala.version>2.12.10</scala.version>
        <spark.version>3.0.1</spark.version>
        <hbase.version>2.2.5</hbase.version>
        <hadoop.version>3.2.1</hadoop.version>
        <encoding>UTF-8</encoding>
    </properties>

    <dependencies>
        <!-- 导入scala的依赖 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
            <!-- 编译时会引入依赖，打包是不引入依赖 -->
            <!--            <scope>provided</scope>-->
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.5.12</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.12</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId>
            <version>${spark.version}