Spark常见问题

BiggerData

于 2022-11-22 18:14:50 发布

阅读量279

点赞数

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/liutao3233/article/details/127987156

版权

stage是如何划分的，为什么要划分stage

根据RDD之间的依赖关系，将Job划分为不同的stage，一个宽依赖就是一个stage。一个stage就是一个TaskSet，将stage根据不同分区划分为一个个task任务。

移动计算而不是移动数据。保证一个stage内不会发生数据的移动。

行动算子和转换算子

行动算子，触发任务的调和任务的执行。collect，reduce，take，count

转换算子，将旧RDD封装成新RDD。 map，filter，flatMap，groupBy

reduceByKey和groupByKey的区别

reduceBykey根据key，对value数据进行轻聚合，在shuffle之前，进行了combinner的操作，这样减少到了数据的迁移量。

groupByKey是根据key对数据进行分组，直接进行shuffle。

在不影响业务逻辑的前提下，优先使用reduceByKey.

repartition和coalsece的区别

两个RDD都涉及到分区的变化，repartition是coalesce的特例，底层调用的就是coalsece，repartition涉及到分区的变化必定会产生shuffle。而coalsece默认情况下是不会产生shuffle的，只有更改第二个参数为true，分区才会有shuffle。正常情况下增加分区用repartition，减少分区用coalesce。

cache或者persist缓存跟checkPoint检查点的区别

共同点：三者都是必须执行到行动算子才会触发

不同点：存储位置的差异

cache或者persist缓存是将数据存储在内存或者本地磁盘上的，可靠性相对比较低。而checkPoint是将数据存储在hdfs高容错高可用的分布式文件系统上面，安全性高。

不同点：依赖关系

cache或者persist只是保存数据在内存中，并不会切断RDD之间的血缘关系，而checkPoint是会切断血缘关系的。

不同点：生命周期

cache或者persist在程序结束后，就会自动删除，而checkPonit是永久保存的不会删除。

博客等级

码龄3年

44
原创

6
点赞

32
收藏

5
粉丝

关注

私信

热门文章

上一篇：: Spark的shuffle

下一篇：: Hbase的预分区

最新评论

HDFS读写数据流程以及Block大小设置
Jason_-Jia: 确定的吗？这样的话，如果一个文件大小是1k 那么还是会在HDFS上用128M的空间去存储，想想也不可能呀，这样太浪费空间了。。只有超过128M大小才会对文件进行切割
HDFS读写数据流程以及Block大小设置
BiggerData: 实际存储是文件的大小，但是会占用128M的空间，这个128M的空间不会再存储其他东西了
HDFS读写数据流程以及Block大小设置
Jason_-Jia: 存储文件的Block Szie默认设置128M，如果文件不大不满128M也是占128M的空间，如果文件大小超过了128M，会进行数据切割，随机存储在节点上面。这句话是有问题，没有满足块大小的数据，实际存储的时候也是文件本身的大小。比如块大小是128M 文件的实际大小是64M，那么存储在linux上的文件大小也是 64M 而不是128M
HDFS读写数据流程以及Block大小设置
Jason_-Jia: 存储文件的Block Szie默认设置128M，如果文件不大不满128M也是占128M的空间，如果文件大小超过了128M，会进行数据切割，随机存储在节点上面。
Hbase的预分区
xiamuyingu: NUMREGIONS

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。