大数据课程——Spark RDD 编程

最新推荐文章于 2023-12-25 16:05:54 发布

冰冷灬泡面

最新推荐文章于 2023-12-25 16:05:54 发布

阅读量853

点赞数

分类专栏：大数据课程学习文章标签： spark big data scala

本文链接：https://blog.youkuaiyun.com/weixin_43334251/article/details/125149177

版权

本博客介绍了一次大数据课程中使用Scala和Spark RDD编程的实验，内容包括统计用户数量和搜索次数超过20的用户。在实验中遇到了初次使用Scala的语法挑战和节点拒绝连接的问题，通过解决这些问题，成功完成了任务。文章提供了任务实现思路、核心代码片段及运行结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据课程——Spark RDD 编程

实验内容以及要求

现有大约500万条搜索引擎产生的记录，数据格式如下:

每一行包含6个字段：
字段1代表数据产生的时间；
字段2代表用户，即UID；
字段3代表用户搜索关键词；
字段4代表URL超链接在返回结果中的排名；
字段5代表用户单击超链接的顺序号；
字段6代表用户单击的URL超链接的地址。
请编写Scala程序，实现如下功能：
（1）统计用户数量，输出格式如下：

（2）统计搜索次数在20次及以上的用户UID及搜索次数，输出格式（按照搜索次数降序排列，搜索次数相同时按UID升序排列）如下：

注意：
（1）数据请上传至HDFS；
（2）统计结果保存至HDFS。

问题总结

首次使用Scala语言进行编程

本次实验对于任务的思路来说，其实并不难，跟之前的某次实验是一样的。但难点主要在于对于Scala语言编程的首次使用，由于对Scala的语法不熟悉成为了本次实验的难点，比如不知道怎么写函数，怎么调用函数等。

节点拒绝连接

在实验过程中，本人猜测是zookeeper的问题，可能某个节点宕掉，导致运行结果不完整，会报“拒绝连接”的错误。如下图所示。后来重启了几次就解决了。
在这里插入图片描述

任务一

实现思路

得到数据后，首先进行数据分割，提取字段1，得到所有用户RDD。但其中会存在重复的用户（因为一个用户会进行多次搜索），所以要进行去重操作，除去重复的用户数据。最后添加行号，调整排序得到最终结果，最后一名用户的编号即为总人数。

核心代码（详细代码放在文末）

在这里插入图片描述

运行结果

在这里插入图片描述

任务二

实现思路

得到数据后，进行分割，提取字段1，并且将字段1和数字1组成一个元组作为一条新的记录（因为每个记录代表该用户进行了一次搜索）。
合并相同key值的记录，将其value值相加，统计该用户的总共的搜索次数。
使用二次排序，将统计结果进行排序，最后输出搜索次数大于等于20的记录。

核心代码

在这里插入图片描述

运行结果

在这里插入图片描述

在这里插入图片描述
运行中的图片

在这里插入图片描述

具体代码

MySortClass.scala

package spark.demo

/*
* 该class用于辅助实现二次排序
* */
class MySortClass(val x:String, val y:Int) extends Serializable with Ordered[MySortClass] {
   
  override def compare(that: MySortClass): Int = {
   
    if (!this.y.equals(that.y)) {
   
      this

最低0.47元/天解锁文章