一、提出任务
- 已知有以下用户访问历史数据,第一列为用户访问网站的日期,第二列为用户名:
-
2022-01-01,mike 2022-01-01,alice 2022-01-01,brown 2022-01-02,mike 2022-01-02,alice 2022-01-02,green 2022-01-03,alice 2022-01-03,smith 2022-01-03,brian
- 现需要根据上述数据统计每日新增的用户数量,期望统计结果:
-
2022-01-01,3 2022-01-02,1 2022-01-03,2
即2022-01-01新增了3个用户(分别为mike、alice、brown),2022-01-02新增了1个用户(green),2022-01-03新增了两个用户(分别为smith、brian)
-
预备工作:启动集群的HDFS与Spark
-
在HDFS上准备数据 -
users.txt
-
二、完成任务