parallelize（在parallelize中，filter和map的执行时一个一个地执行的，见代码执行流程就可以看出）【Java纯代码】

最新推荐文章于 2023-10-03 16:26:33 发布

道法—自然

最新推荐文章于 2023-10-03 16:26:33 发布

阅读量495

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/wyqwilliam/article/details/81154598

本文介绍了一个使用Apache Spark进行数据处理的示例程序。通过创建一个简单的数据集，并利用Spark提供的API实现数据过滤(filter)与转换(map)操作，展示了如何进行基本的数据处理任务。该示例有助于理解Spark中RDD的基本操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

package com.bjsxt;

import java.util.Arrays;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;

public class PipeLineTest {
   public static void main(String[] args) {
       SparkConf conf=new SparkConf().setAppName("test").setMaster("local");
       JavaSparkContext sc=new JavaSparkContext(conf);
       List<String> aslist = Arrays.asList("zhangsan","lisi","wangwu");
       JavaRDD<String> parallelize = sc.parallelize(aslist);
       JavaRDD<String> filter = parallelize.filter(new Function<String, Boolean>() {

           @Override
           public Boolean call(String one) throws Exception {
               // TODO Auto-generated method stub
               System.out.println("filter----------"+one);
               return true;
           }
       });
       JavaRDD<String> map = filter.map(new Function<String, String>() {

           @Override
           public String call(String s) throws Exception {
               System.out.println("map*******************"+s);
               return s+"~";
           }
       });
       map.collect();
   }
}