动态增加的性能与成本演变:MapReduce优化策略解析
1. 引言
在大数据处理领域,Hadoop集群和MapReduce编程模型被广泛应用。然而,在私有组上部署Hadoop集群与在开放云环境中运行有所不同。开放云能够提供虚拟组,可根据应用需求在数分钟内分配或释放资源。在MapReduce应用性能方面,调度起着关键作用。传统的Hadoop MapReduce标准调度器是FIFO调度器,但Facebook和雅虎分别使用公平调度器和容量调度器。不过,这些调度器主要适用于物理固定集群,未充分考虑云环境中虚拟化概念的影响,因此需要动态调度器来根据应用特性、虚拟机和信息位置调度MapReduce应用,以在不同云条件下高效完成任务。
2. 相关工作
许多研究人员致力于MapReduce任务的优化。一些作者研究了MapReduce工作负载的任务排序优化,还有人将MapReduce以两阶段混合流的方式进行建模。此外,还有一些相关的系统和算法被提出,如Starfish系统可自动更改Hadoop配置,Polo等人提出基于资源感知的调度策略,YARN解决了Hadoop MRv1在资源管理方面的不足。同时,也有一些理论执行算法,如BASE算法评估近似任务的潜在优势并去除不必要的运行,Mantri算法侧重于节省集群计算资源,MCP算法则针对过去临时完成策略的问题进行改进。在信息区域优化方面,有两种方法用于MapReduce,即减少端和映射端。
3. 问题定义
目标是合理利用MapReduce的空间,增强单个任务和任务集合之间的性能权衡。由于空间使用的均匀性和资源需求的差异,这是一项具有挑战性的任务。通常,映射任务和减少任务的完成模式不同,导致映射空间和减少
超级会员免费看
订阅专栏 解锁全文
128

被折叠的 条评论
为什么被折叠?



