spark 主要作者之一毕业论文(大型集群上的快速和通用数据处理架构)

本文探讨了随着数据量增长,单机处理性能不足的问题,引出集群计算模型如MapReduce、Pregel等,但这些仍存在容错、并行化和资源动态调整的挑战。作者引入了Spark的RDD数据模型,通过其并行化特性实现了高效计算,并在SparkSQL和SparkStreaming上取得成功。针对实时数据处理,提出了D-Streams模型以解决大规模集群中的故障恢复和效率问题。最后,作者指出了RDD的瓶颈,并讨论了Spark未来可能的发展方向,包括通信优化、异步处理和版本跟踪等。

本文是spark主要作者的的博士毕业论文读书笔记,作者几百页字,从推出背景开始,即:最近几年数据量增长了不少,但是单机处理性能和IO却没有,这样企业就开始寻求集群模式的扩展方案。存在一些解决方案:如mapreduce,自动处理故障的批处理计算模型,pregel、f1,storm、impala等,但问题依旧存在:

  • 容错,节点故障与慢节点很常见,如何加速?
  • 并行化:需要如何并行处理数据?
  • 用户资源共享,如何动态缩减资源

紧接着作者开始引出了RDD这种数据模型,介绍了其特征,并将其应用在spark上,取得了巨大的成功。基于rdd之上的应用模型,如spark sql、spark streaming依旧获得了很大的成功。Dstream相对于RDD的挑战更大。大部分“大数据”都是实时获取的,并且到达之时最有价值.大规模的节点集群,系统故障和慢节点(straggler)问题会变得很严重,恢复变得很重要。现有的系统都无法应对。这里提出一种名为 离散流(D-Streams) 的新式流数据处理模型来克服上述问题。与管理长 时间存在的操作不同,D-Streams 结构将各运算流化成为一系列短时间间隔的无状态、确定性 的批计算。

最后作者指出目前rdd的瓶颈在哪。一个系统在设立指出就应该清楚的知道其瓶颈在哪,处理瓶颈优化相当重要。当 Cloudera 发布 Impala SQL 引擎时,伯克利 AMPLab 发现,与 Shark 相 比,在许多查询中,性能几乎相同 [111]。这是为什么呢?这些查询要么是 I/O,要么是网络 瓶颈,这两个系统都使可用带宽达到了饱和。

未来方向:作者阐述了spark未来应该从如下发展:通信、异步、准确性、版本跟踪等

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值