3、大规模增量 MapReduce 计算系统 Incoop 深度解析

大规模增量 MapReduce 计算系统 Incoop 深度解析

1. 引言

在当今数据驱动的时代,大型数据集的分布式处理对众多公司和组织至关重要,它是提升运营效率的关键手段。近年来,该领域备受关注,尤其是 MapReduce 范式出现后,为大规模并行数据处理提供了有效方法。

实际中,大规模数据处理作业的输入数据集通常变化不大,相邻运行之间仅有小部分数据改变。例如,连续网页抓取时,新旧数据比例可达 10 到 1000 倍。基于此,已有一些大规模增量数据处理系统被提出,如 Percolator 和 CBP。但这些系统要求程序员采用新编程模型和 API,不仅需移植大量现有应用,还难以设计增量更新逻辑。

为解决这些问题,我们推出了 Incoop 系统,它扩展了 Hadoop 的 MapReduce 开源实现,能以增量方式运行未修改的 MapReduce 程序。其设计灵感源于自调整计算技术,旨在让程序员自动增量化现有 MapReduce 程序,无需修改代码。

2. 系统概述
2.1 自调整计算

自调整计算为增量计算问题提供了解决方案,它能高效响应输入数据变化,仅重新计算受影响的子计算。具体而言,它会跟踪子计算输入和输出间的依赖关系,在增量运行时,根据数据和控制依赖识别并重建受影响的子计算。同时,通过计算记忆化技术,记住输入 - 输出关系及依赖图,以便重用子计算。

计算的稳定性决定了自调整计算响应输入修改的效率。当相似输入数据集上的子计算相似时,我们称计算是稳定的。为确保稳定性,需将计算划分为小的子计算,并避免计算间存在长依赖链。虽然 MapReduce 框架天然并行,任务粒度的依赖链较短,但小输入变化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值