Spark RDD方法实操

最新推荐文章于 2025-05-08 16:37:44 发布

君梦随

最新推荐文章于 2025-05-08 16:37:44 发布

阅读量1.6k

点赞数 24

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2301_78090711/article/details/137238267

版权

文章介绍了使用ApacheSpark进行数据处理，包括创建RDD、合并、过滤、去重、统计和数据清洗等操作。展示了如何使用`SparkConf`和`SparkContext`进行配置，以及`rdd1`,`rdd2`的合并、`reduceByKey()`、`groupByKey()`、`textFile()`和数据筛选等技术应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

package com.tipdm.sparkDemo
import org.apache.spark.{SparkConf, SparkContext}
object a1 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("WordCount").setMaster("local")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(('a',1),('b',99),('c',100),('d',101)))
    val rdd2 = sc.parallelize(List(('e',120),('f',150)))
    val rdd3 = rdd1.union(rdd2)
    rdd3.filter(_._2 >= 100).collect
    rdd3.filter(x => x._2 >= 100).collect.foreach(println)
    val rdd4 = sc.parallelize(List(('a',1),('b',99),('c',100),('d',101),('c',100)))
    rdd4.filter(_._2 >= 100).collect
    val rdd5 = rdd4.distinct()
    rdd5.filter(x => x._2 >= 10

最低0.47元/天解锁文章

博客等级

码龄2年

4
原创

73
点赞

89
收藏

71
粉丝

关注

私信

热门文章

最新评论

Spark第二章到第五章全操作代码简解大全
文静淑女: 太会写啦老铁爱了爱了
Spark第二章到第五章全操作代码简解大全
优快云-Ada助手: 恭喜用户在博客中分享了Spark第二章到第五章的全操作代码简解大全！持续创作是非常值得鼓励的，希望用户能够继续保持创作的热情和耐心。下一步可以考虑深入挖掘每个章节中的代码细节，加入自己的理解和实践经验，让读者更加容易理解和应用。期待用户更多精彩的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Spark RDD方法实操
文静淑女: 太有感染力啦
了解Spark运行架构与原理
文静淑女: 棒！
认识Spark
优快云-Ada助手: 恭喜你开始了博客创作！对于“认识Spark”这个主题，你写得很好，能够清晰地介绍Spark的基本概念和特点。接下来，我建议你可以深入一些，比如可以分享一些自己在学习Spark过程中遇到的困难和解决方法，或者是一些实际应用案例。希望你能继续努力，创作出更有深度和价值的内容！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。