- 博客(1)
- 收藏
- 关注
原创 Spark aggregateByKey函数使用
Spark中 RDD 为一个抽象类,是一个分布式数据集 包含五个特征 1. 一个分区的列表 2. 一个计算函数compute,对每个分区进行计算 3. 对其他RDDs的依赖(宽依赖(有shuffle)、窄依赖(无shuffle))列表 4. 对key-value RDDs来说,存在一个分区器(Partitioner)【可选的】 5. 对每个分区有一个优先位置的列表【可选的】 PairRDD key-value 类型的 RDD 首先参考下 aggregateByKey.
2022-02-09 17:02:07
1219
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人