转换算子之map和distinct算子
任务描述
本关任务:输出每个元素及其长度并去重。
相关知识
为了完成本关任务,你需要掌握map
算子以及distinct
算子的的用法。
map 算子
map(func)
:将函数应用于RDD
中的每个元素,将返回值构成新的RDD
,示例如下:
val list=List(1,2,3)
val rdd=sc.parallelize(list)
val rdd1=rdd.map(x=>x+1)
rdd1.foreach(println)
结果: 2
3
4
说明:rdd.map(x=>x+1)
表示将rdd
中的每个元素x
加1
得到新的rdd1(2,3,4)
distinct 算子
distinct()
:去重
val list=List(1,2,3,2,3)
val rdd=sc.parallelize(list)
val rdd1=rdd.distinct()
rdd1.foreach(println)
结果为: 1
3
2
说明:表示将rdd(1,2,3,2,3)
通过rdd.distinct()
对元素去重,生成新的rdd1(1,2,3)
。
编程要求
根据提示,在右侧编辑器begin-end
处补充代码,输出每个元素及其长度并去重。
测试说明
平台会对你编写的代码进行测试:
预期输出:
(an,2)
(dog,3)
(cat,3)
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object EduCoder1 {
def main(args: Array[String]): Unit = {
val conf =new SparkConf().setAppName("educoder1").setMaster("local")
val sc=new SparkContext(conf)
val rdd = sc.parallelize(List("dog","an","cat","an","cat"))
/********** Begin **********/
//第一步:通过获取rdd中每个元素的长度创建新的rdd1
val rdd1 = sc.parallelize(List(3,2,3,2,3))
//第二步:通过zip把rdd1和rdd组合创建rdd2
val rdd2=rdd.zip(rdd1)
//第三步:去重
val rdd3=rdd2.distinct()
//第四步:输出结果
rdd3.foreach(println)
/********** End **********/
sc.stop()
}
}
转换算子之flatMap和filter算子
任务描述
本关任务:输出个数大于一的单词。
相关知识
为了完成本关任务,你需要掌握filter
算子以及flatMap
算子。
flatMap 算子
flatMap(func)
:将函数应用于RDD
中的每个元素,将返回的迭代器的所有内容构成新的RDD
,示例如下:
val list=List(1,2,3)
val rdd=sc.parallelize(list)
val rdd1=rdd.flatMap(x=>x.to(3))
rdd1.foreach(println)
结果为: 1
2
3
2
3
3
说明:flatMap
与Map
的区别,map
函数会对每一条输入进行指定操作,然后为每一条输入返回一个对象;而flatmap
函数则是两个操作的集合,最后将所有对象合并为一个对象
filter 算子
filter(func)
:筛选出满足函数的元素,并返回一个新的RDD
,示例如下:
val list=List(1,2,3)
val rdd=sc.parallelize(list)
val rdd1=rdd.map(x=>x+1)
val rdd2=rdd1.filter(x=>x&g