import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by yz02 on 2017/6/15.
*/
object T_filter {
System.setProperty("hadoop.home.dir","F:\\hadoop-2.6.5")
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("filter_test").setMaster("local")
val sc = new SparkContext(conf)
val numbers = Array(1, 2, 3, 4, 5)
val numberRDD = sc.parallelize(numbers)
//filter 过滤元素
val resultRDD = numberRDD.filter(x => x % 2 == 0)
.foreach(println)
}
}
运行结果:
2
4
4
本文介绍了一个使用Apache Spark进行数据过滤的具体示例。通过定义一个简单的数据集并利用Spark的filter函数来筛选出符合条件的数据项。具体操作包括创建SparkConf配置、初始化SparkContext上下文、定义待处理的数据集合并应用filter过滤条件。
1612

被折叠的 条评论
为什么被折叠?



