spark--transform算子--filter

最新推荐文章于 2023-05-16 09:27:54 发布

原创最新推荐文章于 2023-05-16 09:27:54 发布 · 873 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #filter

spark 专栏收录该内容

30 篇文章

订阅专栏

本文介绍了一个使用Apache Spark进行数据过滤的具体示例。通过定义一个简单的数据集并利用Spark的filter函数来筛选出符合条件的数据项。具体操作包括创建SparkConf配置、初始化SparkContext上下文、定义待处理的数据集合并应用filter过滤条件。

import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by yz02 on 2017/6/15.
  */
object T_filter {
  System.setProperty("hadoop.home.dir","F:\\hadoop-2.6.5")

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("filter_test").setMaster("local")
    val sc = new SparkContext(conf)

    val numbers = Array(1, 2, 3, 4, 5)
    val numberRDD = sc.parallelize(numbers)

    //filter 过滤元素
    val resultRDD = numberRDD.filter(x => x % 2 == 0)
      .foreach(println)
  }
}

运行结果：

2
4