
Spark
Spark相关
纬度.du
心高不气傲,平淡才是真!
展开
-
Spark-RDD算子
Spark-算子简介转换算子(Transformations)行动算子(Actions) 简介 RDD 算子主要分为两类,一类为转换(transform)算子,一类为行动(action)算子,转换算子主要负责改变 RDD 中数据、切分 RDD 中数据、过滤掉某些数据等,并按照一定顺序组合。Spark 会将转换算子放入一个计算的有向无环图中,并不立刻执行,当 Driver 请求某些数据时,才会真正提交作业并触发计算,而行动算子就会触发 Driver 请求数据。这样设计的原因首先是避免无谓的计算开销,更重要的是原创 2020-08-31 18:11:19 · 869 阅读 · 0 评论 -
Spark-RDD初识
Spark-RDD详解RDD简介RDD特征RDD数据存储模型RDD创建方式 RDD简介 RDD(Resilient Distributed Dataset),表示弹性分布式数据集,它是spark最基本的数据抽象/数据结构,它代表了一个不可 变、可分区、里面的元素可以被并行操作的集合。 Dataset: 数据集,可以理解成它是一个集合,集合中存储了很多数据 Distributed: 它的数据是进行了...原创 2020-04-06 14:21:03 · 347 阅读 · 0 评论