spark 主要作者之一毕业论文（大型集群上的快速和通用数据处理架构）

原创已于 2023-08-16 22:24:41 修改 · 2.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #spark

于 2022-04-16 22:40:52 首次发布

大数据同时被 3 个专栏收录

18 篇文章

订阅专栏

spark

8 篇文章

订阅专栏

IT搬运库

7 篇文章

订阅专栏

本文探讨了随着数据量增长，单机处理性能不足的问题，引出集群计算模型如MapReduce、Pregel等，但这些仍存在容错、并行化和资源动态调整的挑战。作者引入了Spark的RDD数据模型，通过其并行化特性实现了高效计算，并在SparkSQL和SparkStreaming上取得成功。针对实时数据处理，提出了D-Streams模型以解决大规模集群中的故障恢复和效率问题。最后，作者指出了RDD的瓶颈，并讨论了Spark未来可能的发展方向，包括通信优化、异步处理和版本跟踪等。

本文是spark主要作者的的博士毕业论文读书笔记，作者几百页字，从推出背景开始，即：最近几年数据量增长了不少，但是单机处理性能和IO却没有，这样企业就开始寻求集群模式的扩展方案。存在一些解决方案：如mapreduce，自动处理故障的批处理计算模型，pregel、f1，storm、impala等，但问题依旧存在：

容错，节点故障与慢节点很常见，如何加速？
并行化：需要如何并行处理数据？
用户资源共享，如何动态缩减资源

紧接着作者开始引出了RDD这种数据模型，介绍了其特征，并将其应用在spark上，取得了巨大的成功。基于rdd之上的应用模型，如spark sql、spark streaming依旧获得了很大的成功。Dstream相对于RDD的挑战更大。大部分“大数据”都是实时获取的，并且到达之时最有价值.大规模的节点集群，系统故障和慢节点（straggler）问题会变得很严重，恢复变得很重要。现有的系统都无法应对。这里提出一种名为离散流(D-Streams) 的新式流数据处理模型来克服上述问题。与管理长时间存在的操作不同，D-Streams 结构将各运算流化成为一系列短时间间隔的无状态、确定性的批计算。

最后作者指出目前rdd的瓶颈在哪。一个系统在设立指出就应该清楚的知道其瓶颈在哪，处理瓶颈优化相当重要。当 Cloudera 发布 Impala SQL 引擎时，伯克利 AMPLab 发现，与 Shark 相比，在许多查询中，性能几乎相同 [111]。这是为什么呢？这些查询要么是 I/O，要么是网络瓶颈，这两个系统都使可用带宽达到了饱和。

未来方向：作者阐述了spark未来应该从如下发展：通信、异步、准确性、版本跟踪等