Spark1.6.0 HashShuffle shuffle write中间文件数目解析

最新推荐文章于 2023-01-13 18:35:45 发布

mo_yuanyy

最新推荐文章于 2023-01-13 18:35:45 发布

阅读量514

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_24363849/article/details/90478283

Spark 专栏收录该内容

3 篇文章

订阅专栏

博客围绕Spark 1.6.0版本中的HashShuffle展开，因该方式在2.X版本被删，作者指定shuffle方式为HashShuffle进行实验。先指定spark.local.dir目录和spark.shuffle.manager为hashshuffle，查看中间文件数量，还提到可用spark.shuffle.consolidateFiles参数优化文件数量。

之前已经知道HashShuffle会在ShuffleMapTask Stage进行如下操作
在这里插入图片描述

故对此进行实验
由于默认使用的shuffle方式是sort，故我们对shuffle的方式进行指定
注：HashShuffle在2.X版本被删除，这里使用的是spark1.6.0版本
先指定spark.local.dir目录
再指定spark.shuffle.manager=为hashshuffle

[hadoop@hadoop001 conf]$ spark-shell --master local[4] --conf  spark.shuffle.manager=hash

在这里插入图片描述
当进行上面的操作时，去事先指定的目录中查看

不出所料，中间文件为12个，M_nums * R_nums

也可以采用spark.shuffle.consolidateFiles这个参数来对文件数量进行优化，减少在磁盘上写文件的数目

博客等级

码龄11年

22
原创

5
点赞

29
收藏

4
粉丝

关注

私信

热门文章

分类专栏

大数据 14篇
git
安装部署教程 5篇
报错 3篇
Linux 3篇
笔记
hive 2篇
scala
mysql
Spark 3篇
Azkaban 1篇
Hadoop 1篇
Flume
CDH

展开全部收起

上一篇：: Spark kyro序列化测试

最新评论

hdfs损坏block定位以及修复
benpaodexiaowoniu: 我上面的错误，重启yarn后hdfs警告便自动消失了。看来hadoop HA模式下，还是得zookeeper、hdfs、yarn这种先后顺序启动才正常。
hdfs损坏block定位以及修复
benpaodexiaowoniu: 好奇怪[code=python] [root@cdh632-worker03 ~]# sudo -u hdfs hdfs fsck -list-corruptfileblocks Connecting to namenode via http://cdh632-worker03:9870/fsck?ugi=hdfs&listcorruptfileblocks=1&path=%2F The filesystem under path '/' has 0 CORRUPT files 理论上并没有坏块，可是cloudere manager首页上hdfs却警告：损坏块Suppress... 群集中有 1 个具备损坏副本的块块。群集中共有 86 个块。百分比具备损坏副本的块: 1.16%。临界阈值：1.00%。 [/code]
Linux向qq邮箱发送html表格以及遇到的问题
DevinOp: 用mail发送我的成功了，但是有些问题，就是标题长度变化，空格变化都可能会导致显示源码，我折腾了好几天都没搞定，比如下面发送代码，中间打个空格就正常，去掉空格就乱码了，一起研究下 mailx -s "$(echo -e "中文测试\nContent-Type: text/html;charset=utf-8\nMime-Version: 1.0")" devin@oceanpayment.com.cn <check_trade_status.html mailx -s "$(echo -e "中文测试\nContent-Type: text/html;charset=utf-8\nMime-Version: 1.0")" devin@oceanpayment.com.cn <check_trade_status.html
HUE3.9搭建并配置HDFS，Hive
「已注销」: 大佬，我最近用hue遇到了一个问题，就是在用hive做查询的时候，刚查出来的结果是可以下载的，但是历史查询记录为什么不能下载，公司让我搞定这个。我是用的cloudera manager安装的hue，这个是版本的问题，还是本身就不能下载。版本号为hue3.9. 0+cdh5.14.0

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。