一、 实验环境
1个master节点, 16个slave节点: CPU:8GHZ , 内存: 2G
网络:局域网
实验人:谢
二、 实验描述
通过Hadoop自带的Terasort排序程序,测试不同的map task和reduce task数量,对Hadoop性能的影响。
实验数据由程序中的teragen程序生成,数据量为1GB和10GB。
通过设置mapred.min.split.size,从而调节map task的数量;设置mapred.reduce.tasks,从而调节reduce task的数量;
dfs.replication的值设为3,其它参数默认。
三、 实验结果与分析
Ø 实验一
表1、改变reduce task(数据量为1GB)
| Map task = 16 |
||||||||||
| Reduce task |
1 |
5 |
10 |
15 |
16 |
20 |
25 |
30 |
45 |
60 |
| 总时间 |
892 |
146 |
110 |
92 |
88 |
100 |
128 |
101 |
145 |
104 |
| Map 时间 |
24 |
21 |
25 |
50 |
2 |
|||||

通过在1个master和16个slave节点的Hadoop环境中进行Terasort实验,研究不同数量的map和reduce任务对性能的影响。实验表明,reduce task数量接近或略大于slave节点数量时,性能最优;而map task数量对系统性能有很大影响,1G和10G数据下,总时间、Map时间、Shuffle时间和Reduce时间会随着map task数量的增大致先降低后升高。Killed map Task Attempts主要由speculative机制引起,可通过设置参数避免。
最低0.47元/天 解锁文章
437

被折叠的 条评论
为什么被折叠?



