Spark
在学习Spark常用到的一些知识
GGSTU
good good study
day day up
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark中mapPartitions使用
Spark中mapPartitions使用原创 2019-11-12 15:21:50 · 2346 阅读 · 0 评论 -
Spark Rdd中的coalesce()方法和repartition()方法
在Spark的Rdd中,Rdd是分区的。有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量,coalesce()方法和repartition()方法就是用来重新分区的repartition(numPartitions:Int)...原创 2019-09-20 15:35:12 · 371 阅读 · 0 评论 -
配置Spark框架最全方法
1. 机器准备准备两台以上Linux系统集群并配置好jdk1.8。2. 下载Spark安装包原创 2019-09-18 15:52:46 · 559 阅读 · 0 评论 -
Hadoop 和 Spark中shuffle阶段的区别
1. 排序方式不同hadoop的shuffle阶段会map端输出的进行排序分区Spark的shuffle阶段不会对map输出的数据进行排序2. 溢出不同hadoop阶段有存在一个环形缓冲区,当缓冲区达到阈值(默认80%)的时候,会将数据溢出到磁盘中,并最终形成一个输出文件,而Spark虽然存在溢出,但不必须存在这个溢出过程,文件都是在并发在写,最后不需要合并成一个3.数据结构不同had...原创 2019-09-24 10:13:47 · 891 阅读 · 0 评论 -
Spark中的RDD的创建以及基本操作
1.RDD的创建:RDD的创建两种方式:并行化已有的集合val RDD1 = sc.makeRDD(List(3,5,6,7,8))val RDD2 = sc.parallelize(Array(1,3,4,6,7))以上两种方式是都可以创建RDD的,虽有区别,但是实现方式都一样makeRDD的底层也是用parallelize方法实现的并行集合的一个重要参数是要将数据集拆分后的分...原创 2019-09-24 10:18:13 · 1525 阅读 · 0 评论
分享