9、Hadoop MapReduce 性能预测模型的比较与改进

Hadoop MapReduce 性能预测模型的比较与改进

1. 引言

随着众多应用和服务的发展与普及,用户数据量呈指数级增长,“大数据”概念应运而生。MapReduce 为处理大数据提供了高效便捷的方式,用户只需指定映射(map)和归约(reduce)函数,底层运行时系统就能自动并行化计算,并处理资源管理和容错问题。Hadoop 作为 MapReduce 的开源实现,让并行计算变得更加容易,许多互联网公司都部署了 Hadoop 集群进行数据处理。

然而,尽管作业已从传统 IT 系统迁移到云端运行,但如何节省资源和时间、降低开发和维护成本仍是用户关注的重点,同时也是评估系统架构合理性的关键指标。当输入数据量很大时,应用程序的执行时间会变得很长,可能达到数小时甚至数天。因此,构建模型来预测作业的整体执行时间,并判断 Hadoop 作业是否能满足截止时间要求就显得尤为重要。Hadoop 参数调整、调度策略和作业性能优化等问题也与作业性能预测密切相关。

以往关于 MapReduce 性能预测的研究主要基于 Hadoop 1,而 Hadoop 2 的资源分配方式不同,使用 YARN 作为资源管理系统,基于实际需求分配资源,而非固定的插槽(slots),这使得为 Hadoop 2 构建性能预测模型具有挑战性。

本文使用局部加权线性回归(LWLR)算法和线性回归(LR)算法,基于不同特征建立三种计算模型,以估算在 Hadoop 框架上运行的大规模数据应用程序的执行时间,并对这三种模型进行比较和改进。通过构建不同类型的实验环境,运行不同类型的作业,验证了改进模型的准确性。

主要贡献

  • 适配 Hadoo
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值