SparkCore阶段练习

最新推荐文章于 2025-05-25 22:49:48 发布

我像影子一样

最新推荐文章于 2025-05-25 22:49:48 发布

阅读量436

点赞数 9

分类专栏： Spark 大数据文章标签： spark 大数据

本文链接：https://blog.youkuaiyun.com/m0_56181660/article/details/135467411

版权

大数据同时被 2 个专栏收录

44 篇文章

订阅专栏

Spark

30 篇文章

订阅专栏

本文介绍了如何使用Spark进行北京PM2.5数据的处理，包括读取CSV文件、数据清洗、类型转换、reduceByKey聚合、降序排序，并展示了获取Dongsi地区前10个最大PM值的示例代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

阶段练习

查看数据集格式
明确需求
明确步骤
1. 读取文件
2. 抽取需要的列
3. 以年月为基础，进行 reduceByKey 统计Dongsi地区的PM
4. 排序
5. 获取结果

编码

拷贝数据集

data.rar（已上传资源——SparkCore阶段练习数据集）
创建类
编写代码

运行测试

@Test
def pmProcess(): Unit = {
  // 1. 创建sc对象
  val conf = new SparkConf().setMaster("local[6]").setAppName("stage_practice")
  val sc = new SparkContext(conf)
  // 2. 读取文件
  val source = sc.textFile("./dataset/BeijingPM20100101_20151231_noheader.csv")
  // 3. 通过算子处理数据
  //    3.1 map切数据 (（年，月）,pm)
  source.map(item => ((item.split(",")(1), item.split(",")(2)), item.split(",")(6)))
  //    3.2 filter 过滤空 和 NA 数据
    .filter(item => StringUtils.isNotEmpty(item._2) && !item._2.equalsIgnoreCase("NA")) // equalsIgnoreCase 判断两个字符串是否相等，忽略字符串的大小写,
  //    3.3 toInt 数据类型转换
    .map(item => (item._1, item._2.toInt))
  //    3.4 聚合数据
    .reduceByKey((curr, agg) => curr + agg)
  //    3.5 排序
    .sortBy(item => item._2, ascending = false) // 降序
  // 4.获取结果
    .take(10)
    .foreach(item => println(item))
  // 5. 关闭sc
  sc.stop()
}