Hadoop文件切片与调度本地化

Hadoop集群调度执行task遵循的原则是尽量使执行task的数据位于本地。

虽然InputSplit 对应的block 可能位于多个节点上,但考虑到任务调度的效率,通常不会把所有节点加到InputSplit 的host 列表中,而是选择包含(该InputSplit)数据总量最大的前几个节点(Hadoop 限制最多选择10 个,多余的会过滤掉),以作为任务调度时判断任务是否具有本地性的主要凭证。为此,FileInputFormat 设计了一个简单有效的启发式算法:首先按照rack 包含的数据量对rack 进行排序,然后在rack 内部按照每个node 包含的数据量对node 排序,最后取前N 个node 的host 作为InputSplit 的host 列表,这里的N为block副本数。这样,当任务调度器调度Task 时,只要将Task 调度给位于host 列表的节点,就认为该Task 满足本地性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值