- 博客(9)
- 问答 (1)
- 收藏
- 关注
原创 spark源码学习-RDD
RDD包含一组分片(Partition),是数据集的基本组成单位,每个partition都会被一个Task任务处理。用户可以在创建RDD时指定分片个数。计算每一个分区的函数,由子类RDD实现。描述当前RDD是符合依赖父RDD的,也就是所谓的血缘关系。当RDD中部分partition数据丢失时,可以通过依赖关系重建该分区数据,而不是对整个RDD的所有分区都重新计算!RDD的分片函数,比如HashPartitioner、RangePartitioner。只有对key-value的RDD才会有Partiti
2025-03-24 18:41:19
921
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1