Spark实训5，spark RDD案例：统计每日新增用户

原创

已于 2022-06-23 17:08:59 修改 · 1.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hadoop

于 2022-06-20 16:32:10 首次发布

本篇博客通过Spark实训，介绍如何统计每日新增用户。首先从HDFS读取文件得到RDD，然后进行数据处理，包括倒排元组、按日期分组、计算最小日期并计数，最后按日期升序输出结果。整个过程分为学习任务、准备工作和IDEA实现三个部分，详细阐述了每一步的操作和命令。

1.学习任务

已知有以下用户访问历史数据，第一列为用户访问网站的日期，第二列为用户名：、

2022-01-01,mike
2022-01-01,alice
2022-01-01,brown
2022-01-02,mike
2022-01-02,alice
2022-01-02,green
2022-01-03,alice
2022-01-03,smith
2022-01-03,brian

2022-01-01 mike alice brown

2022-01-02 mike alice green

2022-01-03 alice smith brian

2022-01-01新增了3个用户（分别为mike、alice、brown），2022-01-02新增了1个用户（green），2022-01-03新增了两个用户（分别为smith、brian）。

若同一个用户对应多个访问日期，则最小的日期为该用户的注册日期，即新增日期，其他日期为重复访问日期，不应统计在内。因此每个用户应该只计算用户访问的最小日期即可。将每个用户访问的最小日期都移到第一列，第一列为有效数据，只统计第一列中每个日期的出现次数，即为对应日期的新增用户数。

2.准备工作

启动集群的HDFS与Spark

在HDFS上准备数据 - users.txt

（一）读取文件，得到RDD

执行命令：spark-shell --master spark://master:7077

执行命令：val rdd1 = sc.textFile("hdfs://master:9000/input/users.txt")

（二）倒排，互换RDD中元组的元素顺序

val rdd2 = rdd1.map(
line => {
val fields = line.split(",")
(fields(1), fields(0))
}
)

执行上述语句

（三）倒排后的RDD按键分组

执行命令：val rdd3 = rdd2.groupByKey()

最低0.47元/天解锁文章

2022-01-01	mike	alice	brown
2022-01-02	mike	alice	green
2022-01-03	alice	smith	brian