4.8.3 利用SparkSQL统计每日新增用户

在这里插入图片描述
在本次实战中,我们的任务是利用Spark SQL统计每日新增用户数。首先,我们准备了用户访问历史数据,并将其上传至HDFS。然后,通过Spark的交互式编程环境,我们读取了用户文件并将其转换为结构化的DataFrame。接着,我们创建了一个临时视图,并通过SQL查询统计了每日新增用户数。

  1. 读取用户文件得到单列数据帧。
  2. 将单列数据帧转换成多列数据帧,提取出日期和用户名。
  3. 基于用户数据帧创建临时视图。
  4. 利用SQL查询统计每日新增用户数,通过计算每个用户的最小访问日期来确定新增日期,并统计每个日期的出现次数。

此外,我们还通过创建一个Spark项目来实现相同的功能。在项目中,我们定义了Maven依赖,配置了Scala SDK,并设置了日志和HDFS配置文件。通过编写Scala代码,我们实现了用户的读取、转换和统计,并最终在控制台输出了结果。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

酒城译痴无心剑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值