Rdds基本操作Transformation,逐元素，map，filter，flatMap，集合运算

最新推荐文章于 2022-03-30 12:13:45 发布

冰竹依梦

最新推荐文章于 2022-03-30 12:13:45 发布

阅读量424

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： spark Transformation RDDS 逐元素

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u013240812/article/details/78276568

spark 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了Apache Spark中RDD的基本操作——Transformation，包括map、filter、flatMap等函数的应用实例，以及如何进行集合运算如并集、交集等操作。

Rdds基本操作Transformation

转换，从之前的RDD构建一个新的RDD，map操作

逐元素map，接受一个函数，应用在RDD每一个元素，并返回一个新的RDD

val lines = sc.parallelize(Array("hello","spark","hello","world","!")) 测试时候使用，从已有集合中构造一个RDD

lines.foreach(println) 打印出每一行，5个元素分为了5个分区 hello spark

val line2 = lines.map(word=>(word,1)) 在每个元素后面加1

lines2.foreach(println) (hello,1) (spark,1)

filter()

接受函数，返回只包含满足filter函数的新RDD

val line3 = lines.filter(word=>word.contains("hello"")

lines3.foreach(println) hello hello

flatMap()

对每个输入元素，输出多个输出元素

压扁，将RDD元素压扁后返回一个新的RDD

val inputs = sc.textFile("/home/maixia/soft/helloSpark.txt")

inputs.foreach(println) hello! hello spark hello world

val lines = inputs.flatMap(line=>line.split(" "))

line代表每一行，空格分割；将3行的6个元素压成一起

lines.foreach(println) hellosparkhelloworldhello!

val lines2 = lines.map(word=>(word,1))

line2.foreach(print) (hello,1) (spark,1)

Rdds基本操作Transformation

集合运算，并集交集

val rdd1 = sc.parallelize(Array(("coffe","coffe","panda","monkey","tea"))

rdd1.foreach(print) coffe coffe panda monkey tea

val rdd2 = sc.parallelize(Array("coffe","monkey","kitty"))

rdd2.foreach(print) coffe monkey kitty

val rdd_distinct = rdd1.distinct() 去重

rdd_distinct.foreach(print) coffe panda monkey tea

val rdd_union=rdd1.union(rdd2) 不去重并集 coffe coffe panda monkey tea coffe monkey kitty

val rdd_inter=rdd1.intersection(rdd2) 交集 monkey coffe

val rdd_sub=rdd1.substract(rdd2) tea panda 在rdd1中有，rdd2没有的

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。