Spark-SQL之每日top3热点搜索词案例统计

最新推荐文章于 2024-06-20 15:19:26 发布

S_Running_snail

最新推荐文章于 2024-06-20 15:19:26 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： SparkSQL综合案例

本文链接：https://blog.youkuaiyun.com/S_Running_snail/article/details/89282050

该博客介绍了如何利用Spark SQL统计每日top3热点搜索词。首先从HDFS文件获取数据，通过filter算子过滤数据，使用Broadcast广播变量优化性能。接着，对数据进行格式转换、分组、去重，统计每天每个搜索词的唯一用户数(uv)。然后，通过DataFrame和Spark SQL的窗口函数计算排名，再转换为RDD进行进一步处理，得到每天的top3搜索词及其uv总数。最终，排序并保存结果到Hive中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实现思路

1、针对原始数据（HDFS文件），获取输入的RDD

2、使用filter算子，去针对输入RDD中的数据，进行数据过滤，过滤出符合查询条件的数据。

2.1 普通的做法：直接在fitler算子函数中，使用外部的查询条件（Map），但是，这样做的话，是不是查询条件Map，会发送到每一个task上一份副本。（性能并不好）

2.2 优化后的做法：将查询条件，封装为Broadcast广播变量，在filter算子中使用Broadcast广播变量进行数据筛选。

3、将数据转换为“(日期_搜索词, 用户)”格式，然后呢，对它进行分组，然后再次进行映射，对每天每个搜索词的搜索用户进行去重操作，并统计去重后的数量，即为每天每个搜索词的uv。最后，获得“(日期_搜索词, uv)”

4、将得到的每天每个搜索词的uv，RDD，映射为元素类型为Row的RDD，将该RDD转换为DataFrame

5、将DataFrame注册为临时表，使用Spark SQL的开窗函数，来统计每天的uv数量排名前3的搜索词，以及它的搜索uv，最后获取，是一个DataFrame

6、将DataFrame转换为RDD，继续操作，按照每天日期来进行分组，并进行映射，计算出每天的top3搜索词的搜索uv的总数，然后将uv总数作为key，将每天的top3搜索词以及搜索次数，拼接为一个字符串

7、按照每天的top3搜索总uv，进行排序，倒序排序

8、将排好序的数据，再次映射回来，变成“日期_搜索词_uv”的格式

9、再次映射为DataFrame，并将数据保存到Hive中即可

package Spark_SQL.Hive_sql;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.broadcast.Broadcast;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.hive.HiveContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import scala.Tuple2;
import java.util.*;

/**
 * @Date: 2019/3/18 13:20
 * @Author Angle
 */

/*
* 每日top3热点搜索词案例统计
*
* */

public class DailyTop3Keyword {

    public static void main(String[] args){
        SparkConf conf = new SparkConf().setMaster("local").setAppName("Top3Keyword");
        JavaSparkContext sc = new JavaSparkContext(conf);
//        SQLContext sqlContext = new SQLContext(sc);
        final HiveContext sqlContext = new HiveContext(sc.sc());


        //“伪造数据”作为map查询条件
        // 在实际上企业项目开发中，这个查询条件很可能，是通过J2EE平台插入到某个MySQL表中的
        // 通常是会用Spring框架和ORM框架（MyBatis）的，去提取MySQL表中的查询条件
        Map<String, List<String>> queryParamMap = new HashMap<String, List<String>>();
        //asList-->把String转换成集合