hadoop的任务调度系统

本文介绍了Hadoop任务调度策略的优化方法,包括调整mapper和reducer的数量、利用combiner减少数据传输、中间值压缩以及shuffle过程的内存管理等。同时提到了Apache Oozie作为第三方调度系统的使用方式。

当hadoop中的任务数量多了之后,就需要通过指定一些策略使得任务调度更快。hadoop中的任务调度与操作系统中的任务调度有些类似,也有许多方法提供使用。

在指定调度策略之前,需要对一些指标进行研究:

  • mapper的数量

mapper需要运行的时间?时间长度取决于使用的输入格式。

  • reducer的数量

为了达到更高的性能,集群中的reducer数量应该略小于reducer的任务槽数。

  • combiner

作业是否充分利用combiner来减少通过shuffle传输的数据量

  • 中间值的压缩

对map输出进行压缩几乎总能使作业执行的更快

  • 调整shuffle

shuffle过程可以对一些内存管理的参数进行调整,以弥补性能的不足

现在有一些第三方调度系统可以提供给开发者使用。

  • Apache Ooize

客户端将一个立即或稍后执行的工作流定义到ooize服务器中。在ooize中工作流是一个由动作(action)节点和控制流节点组成的DAG。

动作节点执行工作流任务。当工作流结束时,Oozie通过发送一个HTTP的回调向客户端通知工作流的状态。还可以在每次进入工作流或退出一个动作节点时接收到回调。

转载于:https://my.oschina.net/u/1447519/blog/1550824

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值