spark-RDD之aggregateByKey

最新推荐文章于 2024-04-21 14:28:25 发布

Tinyblur丶

最新推荐文章于 2024-04-21 14:28:25 发布

阅读量216

点赞数

文章标签： spark

本文链接：https://blog.youkuaiyun.com/weixin_44384740/article/details/103929564

版权

1）函数签名：
2）需求分析
在这里插入图片描述
2）需求：

3）代码实现：
object KeyValue04_aggregateByKey {

def main(args: Array[String]): Unit = {

    //1.创建SparkConf并设置App名称
    val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[*]")

    //2.创建SparkContext，该对象是提交Spark App的入口
    val sc: SparkContext = new SparkContext(conf)

    //3具体业务逻辑
    //3.1 创建第一个RDD
    val rdd: RDD[(String, Int)] = sc.makeRDD(List(("a", 3), ("a", 2), ("c", 4), ("b", 3), ("c", 6), ("c", 8)), 2)

    //3.2 取出每个分区相同key对应值的最大值，然后相加
    rdd.aggregateByKey(0)(math.max(_, _), _ + _).collect().foreach(println)

    //4.关闭连接
    sc.stop()
}

}