
SparkCore
番茄炒蛋213
stay hungry,stay foolish!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkCore之RDD算子Action
/** * 1、collect * 1)返回 Array(ele) * 2)实现方法:遍历添加到数组 * 3)需要注意的是因为该方法是把所有的数据放到内存,所以不适合大量数据==>否则OOM * * 2、take * 前n个元素 * collect vs take =====> * collect 是直接计算所有...原创 2020-05-01 17:20:05 · 230 阅读 · 0 评论 -
SparkCore之RDD算子transformation
1、map vs mapPartition map:作用于每一个元素,迭代次数==>元素数 mapPartition:作用于每一个分区,迭代次数==>分区数 ==>因此,对于数据库创建、对象创建等操作,优选mapPartition mapPartitionWithIndex:返回分区index val rdd = sc.parallelize(List(1, 2, 3...原创 2020-05-01 17:05:27 · 211 阅读 · 0 评论 -
SparkCore之RDD概述
一、RDD简介 RDD:弹性、分布式、数据集(resilient distrubuted dataset) 1、弹性:分区数量可以调整 2、分布式: 可分区的集合(partitioned collection) 对于分区的数据可以以并行的方式操作(parallel) 3、数据集 不可变的(immutable):RDDA==>map==>RDDB(新的RDD) 简单来说,RD...原创 2020-05-01 16:11:50 · 185 阅读 · 0 评论