前言
通过前面两篇文章的学习,对大数据运用中遇到的问题基本可以解决,本篇文章再补充一些前面没有提到的问题和知识点,希望避免大家踩坑。
map数目控制
通过前面的文章对参数调优有了基本认识,这里再补充一点我在hadoop streaming中关于map数目控制的知识。通过参数控制使得每个map处理的数据量基本均衡,加快运行时间,避免出现因为数据量的不均衡导致的时间浪费。
map数目默认情况下是和文件的分片数目相同(default_num),系统默认是64m或者是128m,比如说如果输入文件大小是70m左右,这样同一个文件就会需要两个map进行处理,一个是64m一个是6m,造成处理数据的不均衡,这种情况下可以通过设置如下参数(split_num),将split大小设为40m,参数的单位是byte,保证一个文件有两个map处理,并且处理的数据量大致相等。

本文总结了Spark使用过程中的关键问题,包括如何控制map数目以优化性能,以及如何应对大数据处理中的数据倾斜问题,旨在帮助读者避免常见陷阱。
最低0.47元/天 解锁文章
518

被折叠的 条评论
为什么被折叠?



