论文笔记:Resilient Distributed Dataset: A Fault-Tolerant Abstraction for In-memory C

本文提出了一种名为弹性分布式数据集(RDD)的概念,它结合了MapReduce等数据流模型的容错特性,允许开发人员在大型集群上执行基于内存的计算。RDD特别适用于迭代式算法和交互式数据挖掘,通过限制共享内存为只读并仅通过批量操作创建,实现了高性能和容错能力。实现的RDD在迭代计算方面比Hadoop快20多倍,并能在5-7秒内交互式查询1TB数据集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


摘要
本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见;二是交互式数据挖掘工具。这两种情况下,将数据保存在内存中能够极大地提高性能。为了有效地实现容错,RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操作来创建。尽管如此,RDD仍然足以表示很多类型的计算,包括MapReduce和专用的迭代编程模型(如Pregel)等。我们实现的RDD在迭代计算方面比Hadoop快20多倍,同时还可以在5-7秒内交互式地查询1TB数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值