73、Spark SQL之开窗函数以及top3销售额统计案例实战

开窗函数以及top3销售额统计案例实战

Spark 1.4.x版本以后,为Spark SQL和DataFrame引入了开窗函数,比如最经典,最常用的,row_number(),可以让我们实现分组取topn的逻辑。

案例:统计每个种类的销售额排名前3的产品

先说明一下,row_number()开窗函数的作用
其实,就是给每个分组的数据,按照其排序顺序,打上一个分组内的行号
比如说,有一个分组date=20181231,里面有3条数据,1122,1121,1124,
那么对这个分组的每一行使用row_number()开窗函数以后,三行,依次会获得一个组内的行号
行号从1开始递增,比如1122 1,1121 2,1124 3

row_number()开窗函数的语法说明
首先可以,在SELECT查询时,使用row_number()函数
其次,row_number()函数后面先跟上OVER关键字
然后括号中,是PARTITION BY,也就是说根据哪个字段进行分组
其次是可以用ORDER BY进行组内排序
然后row_number()就可以给每个组内的行,一个组内行号
Java版本

public class RowNumberWindowFunction {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("RowNumberWindowFunctionJava");
        JavaSparkContext sparkContext = new JavaSparkContext(conf);

        // 创建销售额表,sales表
        HiveContext hiveContext = new HiveContext(sparkContext.sc());
        hiveContext.sql("DROP TABLE IF EXISTS sales");
        hiveContext.sql("CREATE TABLE IF NOT EXISTS sales ("
                + "product STRING,"
                + "category STRING,"
                + "revenue BIGINT)");
        hiveContext.sql("LOAD DATA "
                + "LOCAL INPATH '/opt/module/datas/sparkstudy/sql/resource/sales.txt' "
                + "INTO TABLE sales");

        DataFrame top3 = hiveContext.sql(
                "select s.product, s.category, s.revenue " +
                        "from ( " +
                        "select product, category, revenue, " +
                        "row_number() over(partition by category order by revenue desc) rank " +
                        "from sales " +
                        ") s " +
                        "where s.rank < 4"
        );

        hiveContext.sql("DROP TABLE IF EXISTS top3_sales");
        top3.saveAsTable("top3_sales");
    }
}

Scala版本

object RowNumberWindowFunction {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("RowNumberWindowFunctionScala")
    val sparkContext = new SparkContext(conf)

    // 创建销售额表,sales表
    val hiveContext = new HiveContext(sparkContext)
    hiveContext.sql("DROP TABLE IF EXISTS sales")
    hiveContext.sql("CREATE TABLE IF NOT EXISTS sales ("
      + "product STRING,"
      + "category STRING,"
      + "revenue BIGINT)")
    hiveContext.sql("LOAD DATA "
      + "LOCAL INPATH '/opt/module/datas/sparkstudy/sql/resource/sales.txt' "
      + "INTO TABLE sales")

    val top3 = hiveContext.sql(
      "select s.product, s.category, s.revenue " +
        "from ( " +
        "select product, category, revenue, " +
        "row_number() over(partition by category order by revenue desc) rank " +
        "from sales " +
        ") s " +
        "where s.rank < 4"
    )

    hiveContext.sql("DROP TABLE IF EXISTS top3_sales")
    top3.write.saveAsTable("top3_sales")
  }
}

开窗函数Spark SQL中是一种用于对结果集进行分析和聚合计算的功能。它可以对结果集按照指定的分区进行分组,并在每个分组中进行聚合计算。开窗函数在解决一些复杂的问题时非常有用,可以简化SQL语句的编写,并提高查询效率。 Spark SQL中的开窗函数可以通过使用窗口规范来定义,窗口规范包括分区和排序的规则。分区规则用于将结果集划分为不同的分组,而排序规则用于在每个分组中确定计算的顺序。 通过使用开窗函数,您可以在同一SELECT语句中同时使用多个开窗函数,并且它们之间不会相互干扰。例如,您可以使用COUNT函数来计算每个分组中的记录数,或者使用RANK函数来计算每个分组中的排名。 以下是一个使用Spark SQL开窗函数的示例: ```spark sparkSession.sql("SELECT name, class, score, COUNT(name) OVER(PARTITION BY class) AS name_count1 FROM score").show() sparkSession.sql("SELECT name, class, score, COUNT(name) OVER(PARTITION BY score) AS name_count2 FROM score").show() ``` 在这个示例中,第一个SELECT语句使用COUNT函数,按照班级进行分组,并计算每个班级中的学生数量。第二个SELECT语句使用COUNT函数,按照分数进行分组,并计算每个分数对应的学生数量。 总之,Spark SQL开窗函数是一种强大的工具,可以帮助您对结果集进行灵活的分析和聚合计算。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Spark SQL开窗函数](https://blog.youkuaiyun.com/weixin_39966065/article/details/93099293)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Spark SQL——开窗函数](https://blog.youkuaiyun.com/weixin_44240370/article/details/103322615)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值