Spark算子 - JAVA版本

最新推荐文章于 2025-06-27 11:20:16 发布

原创

最新推荐文章于 2025-06-27 11:20:16 发布 · 2.3k 阅读

·

40

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #java #大数据

Transformation - map

任务描述

本关任务：使用 Spark 的map算子按照相关需求完成转换操作。

相关知识

为了完成本关任务，你需要掌握：如何使用map算子。

map

将原来RDD的每个数据项通过map中的用户自定义函数f映射转变为一个新的元素。

图中每个方框表示一个RDD分区，左侧的分区经过自定义函数f:T->U映射为右侧的新RDD分区。但是，实际只有等到Action算子触发后，这个f函数才会和其他函数在一个Stage中对数据进行运算。

map 案例

List<Integer> list = Arrays.asList(1, 2, 3, 4, 5, 6);
System.out.println("init:" + list);
JavaRDD<Integer> rdd = sc.parallelize(list);
JavaRDD<Integer> map = rdd.map(x -> x * 2);
System.out.println("result :" + map.collect());

输出：

init :[1, 2, 3, 4, 5, 6] result :[2, 4, 6, 8, 10, 12]

说明：rdd1的元素（1 , 2 , 3 , 4 , 5 , 6）经过map算子(x -> x*2)转换成了rdd2(2 , 4 , 6 , 8 , 10)

编程要求

根据提示，在右侧编辑器begin-end处补充代码，完成以下需求：

需求1：使用map算子，将rdd的数据(1, 2, 3, 4, 5)按照下面的规则进行转换操作，规则如下:

偶数转换成该数的平方；
奇数转换成该数的立方。

需求2：使用map算子，将rdd的数据("dog", "salmon", "salmon", "rat", "elephant")按照下面的规则进行转换操作，规则如下：

将字符串与该字符串的长度组合成一个元组，例如：

dog --> (dog,3)
salmon --> (salmon,6)

package net.educoder;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import scala.Tuple2;

import java.util.Arrays;

import java.util.List;

public class Step1 {

private static SparkConf conf;

private static JavaSparkContext sc;

static {

conf = new SparkConf().setAppName("Step1").setMaster("local");

sc = new JavaSparkContext(conf);

}

/**

* 返回JavaRDD

*

* @return JavaRDD

*/

public static JavaRDD<Integer> MapRdd() {

List<Integer> list = Arrays.asList(1, 2, 3, 4, 5);

JavaRDD<Integer> rdd = sc.parallelize(list);

/**

*

* 需求：使用map算子，将rdd的数据进行转换操作

* 规则如下:

* 偶数转换成该数的平方

* 奇数转换成该数的立方

*

*/

/*********begin*********/

JavaRDD<Integer> map = rdd.map(num -> {

if (num % 2 == 0) {

return num * num;

} else {

return num * num * num;

}

});

return map;

/*********end*********/

}

/**

* 返回JavaRDD

*

* @return JavaRDD

*/

public static JavaRDD<Tuple2> MapRdd2() {

List<String> list = Arrays.asList("dog", "salmon", "salmon", "rat", "elephant");

JavaRDD<String> rdd = sc.parallelize(list);

/**

*

* 需求：使用map算子，将rdd的数据进行转换操作

* 规则如下:

* 将字符串与该字符串的长度组合成一个元组，例如：dog --> (dog,3),salmon --> (salmon,6)

*

*/

/*********begin*********/

JavaRDD<Tuple2> map = rdd.map(str -> {

int i = str.length();

return new Tuple2(str, i);

});

return map;

/*********end*********/

}

}

Transformation - mapPartitions

任务描述

本关任务：使用Spark的mapPartitions算子按照相关需求完成转换操作。

相关知识

为了完成本关任务，你需要掌握：如何使用mapPartitions算子。

mapPartitions

mapPartitions函数获取到每个分区的迭代器，在函数中通过这个分区整体的迭代器对整个分区的元素进行操作。

图中每个方框表示一个RDD分区，左侧的分区经过自定义函数f:T->U映射为右侧的新RDD分区。

mapPartitions 与 map

map：遍历算子，可以遍历RDD中每一个元素，遍历的单位是每条记录。

mapPartitions：遍历算子，可以改变RDD格式，会提高RDD并行度，遍历单位是Partition，也就是在遍历之前它会将一个Partition的数据加载到内存中。

那么问题来了，用上面的两个算子遍历一个RDD谁的效率高？当然是mapPartitions算子效率高。

mapPartitions 案例

List<Integer> list = Arrays.asList(1, 2, 3, 4, 5, 6);
System.out.println("init::" + list);
JavaRDD<Integer> rdd = sc.parallelize(list);
JavaRDD<Integer> mapPartitions = rdd.mapPartitions(it -> {
ArrayList<Integer> arrayList = new ArrayList<>();
while (it.hasNext()) {
Integer next = it.next();
arrayList.add(next * 2);
}
return arrayList.iterator();
});
System.out.println("result :" + mapPartitions.collect());

输出：

init::[1, 2, 3, 4, 5, 6]
result :[2, 4, 6, 8, 10, 12]

mapPartitions()：传入的参数是rdd的iterator（元素迭代器），返回也是一个iterator（迭代器）。

编程要求

根据提示，在右侧编辑器begin-end处补充代码，完成以下需求：

需求1：使用mapPartitions算子，将rdd的数据(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)按照以下规则进行转换操作，规则如下:

1. 偶数转换成该数的平方；
1. 奇数转换成该数的立方。

需求2：使用mapPartitions算子，将rdd的数据 ("dog", "salmon", "salmon", "rat", "elephant")按照下面的规则进行转换操作，规则如下:

将字符串与该字符串的长度组合成一个元组，例如：

dog --> (dog,3)
salmon --> (salmon,6)

package net.educoder;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import scala.Tuple2;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.List;

public class Step7 {

private static SparkConf conf;

private static JavaSparkContext sc;

static {

conf = new SparkConf().setAppName("Step7").setMaster("local");

sc = new JavaSparkContext(conf);

s

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄5年

31
原创

427
点赞

391
收藏

331
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Spark算子--Scala版本

下一篇：: Spark算子 - Python

最新评论

RDD的创建 - Python
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Hadoop概述
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
SparkSQL简单使用
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Hadoop概述
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
SparkSQL简单使用
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。