Spark-java版

qq_58647543

已于 2023-11-21 16:26:34 修改

阅读量319

点赞数

分类专栏： spark 文章标签： spark java

于 2023-11-21 13:25:56 首次发布

本文链接：https://blog.youkuaiyun.com/qq_58647543/article/details/134529615

版权

spark 专栏收录该内容

9 篇文章

订阅专栏

SparkContext初始化

集合并行化创建RDD

任务描述

本关任务：计算并输出各个学生的总成绩。

编程要求

根据提示，在右侧编辑器begin-end处补充代码，计算并输出各个学生的总成绩。

("bj",88)： bj指学生姓名，88指学生成绩。

测试说明

平台会对你编写的代码进行测试：

预期输出： (bj,254) (sh,221) (gz,285)

package step1;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;
import java.util.*;
public class JStudent {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("JStudent");
        JavaSparkContext sc = new JavaSparkContext(conf);
        List<Tuple2<String,Integer>> list = Arrays.asList(
             new Tuple2("bj",88),new Tuple2("sh",67),
             new Tuple2("gz",92),new Tuple2("bj",94),
             new Tuple2("sh",85),new Tuple2("gz",95),
             new Tuple2("bj",72),new Tuple2("sh",69),
             new Tuple2("gz",98));
        //第一步：创建RDD
        JavaPairRDD<String, Integer> listRDD = sc.parallelizePairs(list);
        //第二步：把相同key的进行聚合
        JavaPairRDD<String, Integer> result = listRDD.reduceByKey((x, y) -> x + y);
        //第三步：收集
        List<Tuple2<String, Integer>> collect = result.collect();
        //第四步：输出
        for (Tuple2 c:collect){
            System.out.println(c);
        }
        sc.stop();
    }
}

读取外部数据集创建RDD

任务描述

本关任务：读取文本文件，按照文本中数据，输出老师及其出现次数。

编程要求

根据提示，在右侧编辑器begin-end处补充代码，输出老师姓名和出现次数。

输入文件样例：

bigdata,laozhang bigdata,laoduan javaee,xiaoxu

bigdata指科目，laozhang指老师名称。

预期输出： (laoliu,1) (laoli,3) (laoduan,5) (laozhang,2) (laozhao,15) (laoyang,9) (xiaoxu,4)

package step2;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;

import java.util.Arrays;
import java.util.List;

public class JTeachers {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("JTeachers");
        JavaSparkContext sc = new JavaSparkContext(conf);
        String dataFile = "file:///root/step2_files";
              //第一步：以外部文件方式创建RDD
        JavaRDD<String> teaRDD = sc.textFile(dataFile);
        //String name = line.split(",")[1];
        //第二步：将文件中每行的数据切分，得到自己想要的返回值
        Integer one = 1;
        JavaPairRDD<String, Integer> teacher = teaRDD.mapToPair(line ->{
            String names = line.split(",")[1];
            Tuple2<String, Integer> t2 = new Tuple2<>(names, one);
            return t2;
        });
        //第三步：将相同的key进行聚合
        JavaPairRDD<String, Integer> tea = teacher.reduceByKey((x, y) -> x + y);
        //第四步：将结果收集起来
        List<Tuple2<String, Integer>> result = tea.collect();
        //第五步：输出
        for (Tuple2 t:result){
            System.out.println(t);
        }
        sc.stop();
    }
}

`map`算子完成转换操作

编程要求

根据提示，在右侧编辑器begin-end处补充代码，完成以下需求：

需求1：使用map算子，将rdd的数据(1, 2, 3, 4, 5)按照下面的规则进行转换操作，规则如下:

偶数转换成该数的平方；
奇数转换成该数的立方。

需求2：使用map算子，将rdd的数据("dog", "salmon", "salmon", "rat", "elephant")按照下面的规则进行转换操作，规则如下：

将字符串与该字符串的长度组合成一个元组，例如

dog --> (dog,3)

salmon --> (salmon,6)

package net.educoder;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;
import java.util.Arrays;
import java.util.List;
public class Step1 {
    private static SparkConf conf;
    private static JavaSparkContext sc;
    static {
        conf = new SparkConf().setAppName("Step1").setMaster("local");
        sc = new JavaSparkContext(conf);
    }
    /**
     * 返回JavaRDD
     *
     * @return JavaRDD
     */
    public static JavaRDD<Integer> MapRdd() {
        List<Integer> list = Arrays.asList(1, 2, 3, 4, 5);
        JavaRDD<Integer> rdd = sc.parallelize(list);
        /**
         *
         * 需求：使用map算子，将rdd的数据进行转换操作
         * 规则如下:
         *      偶数转换成该数的平方
         *      奇数转换成该数的立方
         *
         */
        /********** begin ***********/
        JavaRDD<Integer> map = rdd.map(num -> {
            if (num % 2 == 0) {
                return num * num;
            } else {
                return num * num * num;
            }
        });
        return map;
        /********** end ***********/
    }
    /**
     * 返回JavaRDD
     *
     * @return JavaRDD
     */
    public static JavaRDD<Tuple2> MapRdd2() {
        List<String> list = Arrays.asList("dog", "salmon", "salmon", "rat", "elephant");
        JavaRDD<String> rdd = sc.parallelize(list);
        /**
         *
         * 需求：使用map算子，将rdd的数据进行转换操作
         * 规则如下:
         *      将字符串与该字符串的长度组合成一个元组，例如：dog  -->  (dog,3),salmon   -->  (salmon,6)
         *
         */
       /********** begin ***********/
        JavaRDD<Tuple2> map = rdd.map(str -> {
            int i = str.length();
            return new Tuple2(str, i);
        });
        return map;
       /********** end ***********/
    }
}