
Spark
yisuoyanyv
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark 键值对操作
Spark 键值对操作 2019年11月22日 简介 键值对RDD通常用来进行聚合计算 键值对RDD在各节点上分布情况的高级特性:分区 使用可控的分区方式把常被一起访问的数据放到同一个节点上,可以大大减少应用的同学开销,带来明显的性能提升。 为分布式数据集选取正确的分区方式。 pair RDD提供 reduceByKey()方法,可以分别规约每个键对应的数据。 Join()方法,可以把两个RDD中...原创 2019-11-23 23:38:53 · 1244 阅读 · 0 评论 -
Spark RDD总结
Spark RDD 总结 2019年11月21日 16:58 RDD两种操作 RDD 支持两种类型的操作:转化操作(transformation)和行动操作(action) 转化操作会由一个RDD生产一个新的RDD。 如fliter,map 行动操作会对RDD计算出一个结果。如first,count 两种操作区别在于Spark计算RDD的方式不同。Spark惰性计算,只有第一次在一个行动操作中用到...原创 2019-11-23 23:17:26 · 625 阅读 · 0 评论