44、动态增加的性能与成本演变：MapReduce优化策略解析

最新推荐文章于 2025-12-02 17:02:11 发布

sprite

最新推荐文章于 2025-12-02 17:02:11 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：智能计算前沿探析文章标签： MapReduce 动态Hadoop槽分配性能优化

本文链接：https://blog.youkuaiyun.com/sprite/article/details/154162126

智能计算前沿探析专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

动态增加的性能与成本演变：MapReduce优化策略解析

1. 引言

在大数据处理领域，Hadoop集群和MapReduce编程模型被广泛应用。然而，在私有组上部署Hadoop集群与在开放云环境中运行有所不同。开放云能够提供虚拟组，可根据应用需求在数分钟内分配或释放资源。在MapReduce应用性能方面，调度起着关键作用。传统的Hadoop MapReduce标准调度器是FIFO调度器，但Facebook和雅虎分别使用公平调度器和容量调度器。不过，这些调度器主要适用于物理固定集群，未充分考虑云环境中虚拟化概念的影响，因此需要动态调度器来根据应用特性、虚拟机和信息位置调度MapReduce应用，以在不同云条件下高效完成任务。

2. 相关工作

许多研究人员致力于MapReduce任务的优化。一些作者研究了MapReduce工作负载的任务排序优化，还有人将MapReduce以两阶段混合流的方式进行建模。此外，还有一些相关的系统和算法被提出，如Starfish系统可自动更改Hadoop配置，Polo等人提出基于资源感知的调度策略，YARN解决了Hadoop MRv1在资源管理方面的不足。同时，也有一些理论执行算法，如BASE算法评估近似任务的潜在优势并去除不必要的运行，Mantri算法侧重于节省集群计算资源，MCP算法则针对过去临时完成策略的问题进行改进。在信息区域优化方面，有两种方法用于MapReduce，即减少端和映射端。