spark基础
包彭芃
开始自己的逆袭之路,灿烂如夏花
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark partition
转载https://blog.youkuaiyun.com/wyqwilliam/article/details/81627603repartitionAndSortWithinPartitions是Spark官网推荐的一个算子,官方建议,如果需要在repartition重分区之后,还要进行排序,建议直接使用repartitionAndSortWithinPartitions算子。因为该算子可以一边进行...转载 2019-05-27 16:12:23 · 433 阅读 · 0 评论 -
Spark编程指南
一。概观每个spark应用程序都包含一个驱动程序,通过main函数在集群上执行各种并行操作。1.Spark提供的是主要抽象是RDD,他是跨群集结点分区的元素的集合,可以并行操作(宽依赖)。RDD是通过从Hadoop文件系统(或其他Hadoop支持的文件系统)中的文件或驱动程序中的现有Scala集合开始并对其进行转换而创建的。用户还可以要求Spark在内存中保留RDD,允许它在并行操作中有效...翻译 2019-05-23 15:03:42 · 338 阅读 · 0 评论
分享