46、可扩展的MapReduce应用性能建模与评估

最新推荐文章于 2025-10-17 13:47:01 发布

放屁带闪电

最新推荐文章于 2025-10-17 13:47:01 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：高性能计算与大数据融合文章标签： MapReduce Spark 性能建模

本文链接：https://blog.youkuaiyun.com/grafana8visual/article/details/153766652

高性能计算与大数据融合专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

可扩展的MapReduce应用性能建模与评估

1. 引言

如今，数据中心存在着海量数据，并且数据的产生速度持续加快。数据科学家需要快速的框架、特定的算法，甚至新的编程范例来高效处理这些大数据。2008年，Dean和Ghemawat提出了MapReduce（MR）范式，用于在多节点集群上处理大量数据，以提高并行性和性能。2011年，Apache开发了Hadoop框架，使MR范式得到广泛应用。2013年，YARN层被引入Hadoop集群，实现了资源的动态管理。随着MR应用中数据流变得更加复杂，Tez开发者选择有向无环图（DAG）来展示复杂应用各阶段之间的数据流。Spark利用内存的高速和弹性分布式数据集（RDD）的概念应运而生，因其高速和易于应用开发而受到欢迎。

然而，调整框架和集群参数以减少大数据应用的执行时间一直是个挑战，而预测给定参数集下的执行时间是优化过程的重要部分。随着大数据处理框架的不断发展，新的参数和复杂性不断增加，执行时间的预测变得越来越困难。以往的模拟、建模或学习方法在准确性和可扩展性方面仅适用于简单运行场景，对于多用户运行多个多阶段作业的复杂应用则难以胜任。

在预测执行时间的方法中，分析模型起着重要作用。模拟方法耗时，全面的模拟器稀缺且使用不便；探索性方法如研究过去运行历史也很耗时，且有时需要在实际设置之前进行预测；学习跟踪受限于特定标准，其他性能指标需要重新学习。而分析方法运行速度快、足够准确，并且能深入了解过程，可通过单个模型研究多个性能指标。虽然为Spark框架等复杂系统推导数学关系几乎不可能，但随机模型更具可行性。随机奖励网（SRN）基于随机Petri网（SPN），被选为本文构建模型的形式。

不过，像SRN这样的随机模型存在状态空间爆炸问题。在Spark框架中，多个作业同时提交，各阶段的Map/Reduce任务数量不同，作业由不同用户提交，具有不同优先级，用单一模型建模这些变化容易导致状态空间爆炸，普通硬件难以分析。因此，本文提出基于SRN的分析模型来准确建模运行多个作业的Hadoop和Spark框架，并提出一种集总技术来降低模型复杂度，消除状态空间爆炸问题。

2. 相关工作

对大数据应用的性能分析以及框架和集群参数的调整有多项研究，不同的性能评估方法可分类如下：
- 实验与历史研究 ：通过执行实验和研究先前的执行情况来了解框架性能。例如，使用MR作业执行日志评估性能指标并预测未来运行；监控Hadoop作业的执行有助于微调集群和管理配置参数。
- 机器学习方法 ：从回归到支持向量回归（SVR）等机器学习技术被用于预测执行时间。例如，Ernest工具集基于小样本数据的作业行为预测大规模Spark作业的执行时间；还有研究者探索样本代表性的迷你数据集来训练模型，通过多多项式回归对Spark应用的每个阶段建模，然后通过执行DAG的关键路径汇总阶段预测来估计整个作业的运行时间；也有将排队网络模型与SVR技术结合以提高准确性并减少训练实验数量的方法。
- 模拟方法 ：为大数据框架构建综合模拟器的工作很多。例如，DAGSim是一种新颖的临时快速离散事件模拟器，用于模拟复杂DAG的执行，可预测Spark应用的运行时间；还有利用广义随机Petri网（GSPN）、过程代数和马尔可夫链等多种形式主义开发多形式主义模型，以捕捉Hive查询性能行为的方法；也有使用优先定时有色Petri网（PTCPN）形式化MR范式并进行性能成本权衡分析的工作；以及提出排队网络和随机良构网（SWN）模拟模型并针对MR应用进行验证的研究。
- 分析模型 ：基于马尔可夫过程的分析模型是本文的重点。虽然为MR作业执行时间推导数学关系难以实现，但有研究者为共享Hadoop集群中的MR作业执行时间推导了上下界；也有使用随机Petri网（SPN）进行自适应大数据架构性能预测的工作，还有应用平均场分析获得平均性能指标的研究；为应对状态空间爆炸问题，有研究者使用流体Petri网简化实际模型，提出流体模型来预测MR和Spark应用的执行时间。

3. 系统架构与应用结构

为更好理解所提出模型的行为，需要了解目标系统、应用及其假设。本文主要关注Spark框架和Spark应用，因为Spark在企业中广泛使用且受数据科学家欢迎。不过，建模从简单的Hadoop MR应用开始，然后讨论模型在Spark框架中的适用性。Spark通常运行在由YARN资源管理器管理的Hadoop集群之上，这也是本文采用的架构。系统的总体架构如下：

graph LR
    A[YARN] --> B[HDFS]
    A --> C[Tez]
    A --> D[MR]
    A --> E[Spark]

一个MR作业由三个主要阶段组成：Map、Shuffle和Reduce。每个阶段包含多个在不同集群节点上并行运行的任务。Map任务对输入数据块进行计算，Shuffle任务负责将Map阶段的输出收集到Reduce任务，Reduce任务对中间数据进行聚合并输出最终结果。由于Reduce和Shuffle任务在同一线程中运行，本文将Reduce任务视为相应Shuffle任务和后续Reduce任务的聚合。

Spark编程模型与MR类似，但通过RDD实现了内存中的数据共享抽象。每个Spark应用由多个阶段组成，一个阶段对应RDD上的操作，可看作MR作业中的Map、Shuffle或Reduce阶段。每个阶段由多个并行运行且分布在集群中的任务组成，阶段之间以有向无环图（DAG）的形式连接，展示了数据在阶段之间的流动和执行顺序，DAG还指定了并行度和关键路径。

早期Hadoop框架使用FIFO策略调度作业，如今有更复杂的调度器，如容量调度器和公平调度器。本文假设YARN层使用容量调度器，在多类环境中，每个类中的作业按FIFO方式运行，下一个作业只有在前一个作业的最后阶段获得完成所需的所有资源后才能开始。YARN容量调度方案为每个类指定了资源份额，类之间会竞争资源，直到资源不足。

本文考虑在一组同质资源上运行的目标Hadoop集群，包括基于YARN容量调度器的MR和Spark执行引擎。这意味着集群容量被划分为多个队列，队列内的多个应用按FIFO方式调度。多个用户可以运行相同的查询并提交到特定队列，用户在获得结果后，经过思考时间可以再次提交相同查询（可能交互式更改一些参数），即考虑了多类封闭性能模型。

4. 单类模型

4.1 提出的模型

为Spark应用提出的SRN模型用于模拟图2所示的示例Spark应用的执行。该模型包括不同阶段、共享资源、思考时间和调度机制。由于Spark中的阶段类似于Tez和MR框架中的阶段，该模型也可轻松简化用于建模Tez和MR应用。模型行为的详细描述如下：
- 初始状态下，位置PF中有N个令牌，表示等待开始执行的作业。标记依赖的定时转换TT模拟等待作业的思考时间。当此转换完成时，一个令牌以速率λT从位置PF移动到位置PS，λT是为转换TT考虑的指数分布的速率。
- 位置PS中有令牌会触发瞬时转换tS0，如果位置PNJ中有令牌可供消耗，则开始作业。位置PNJ最初包含一个令牌，根据容量调度器策略模拟开始等待作业的可能性。作业开始时，瞬时转换tS0在位置PW0中产生N0个令牌，每个令牌代表第一阶段的一个任务。
- 实体PW i、tRi、PRi、TRi、PDi、Ni和tF i（0 ≤ i ≤ 4）共同模拟第i阶段。位置PW i是第i阶段的起点，表示等待资源的任务。瞬时转换tRi为任务分配可用资源，从位置PC和PW i中各移除一个令牌，并将一个令牌添加到位置PRi。位置PC模拟容器池，最初包含C个令牌，表示容器的总数。
- 单个任务的执行由定时转换TRi建模，任务完成时将资源返回可用资源池。此转换由形状为kRi和标记依赖速率λRi的Erlang分布表征。根据实验，任务执行时间更符合Erlang等更一般的分布，而不是指数分布。为使SRN模型可分析求解，所有定时活动需为指数分布，幸运的是，Erlang分布可以用一组连续的指数活动模拟。分布的参数从实验日志中计算得出。
- 当位置PDi中的令牌数量达到任务总数时，第i阶段完成，瞬时转换tF i从PDi中消耗Ni个令牌（Ni表示第i阶段的任务数量），并在位置PW (i + 1)中产生Ni + 1个令牌，开始第(i + 1)阶段。倒数第二阶段的转换tF i完成时，还会在位置PLS中添加一个令牌，表示作业正在执行最后阶段。
- 根据容量调度器，下一个作业只有在前一个作业的最后阶段获得完成所需的所有资源后才能开始。在模型中，当位置PLS中有令牌且位置PW 4中没有令牌时，瞬时转换tF J启用。之后，转换tF J从位置PLS中移除一个令牌，并将一个令牌放入位置PNJ，使瞬时转换tS0能够开始下一个作业。位置PS3和转换tS3确保在阶段3开始之前，阶段1和阶段2都已完成。

该模型要评估的性能指标是作业的稳态平均执行时间，即令牌从位置PS移动到位置PF所需的平均时间。为计算平均执行时间，定义了如下奖励：
[r = \frac{N}{throughput_{tF4}} - \frac{1}{\lambda_T}]
其中，(throughput_{tF4})是瞬时转换tF4的吞吐量，可通过以下公式计算：
[throughput_{tF4} = P(#PD4 = N4 - 1) \cdot \lambda_{R4}]
其中，(P(#PD4 = N4 - 1))是最后阶段除一个任务外所有任务都完成的状态概率，即位置PD4中有N4 - 1个令牌且还有一个令牌完成整个作业的概率，该概率乘以λR4（最后阶段执行任务的速率）。

4.2 集总技术

虽然提出的模型似乎符合Spark执行模型，但在现实世界中，可扩展性是该模型的一个短板。从技术上讲，图3中的模型随着阶段数量的增加，状态空间很容易增大。

状态空间的增大使得模型的分析和求解变得困难，普通硬件难以处理如此庞大的状态空间。为了解决这个问题，本文提出了集总技术。

集总技术的核心思想是将模型中一些复杂的部分进行合并和简化，从而减少状态空间的大小。通过这种方式，可以避免状态空间爆炸问题，使模型能够在合理的时间内进行分析和求解。

具体来说，集总技术会对模型中的一些状态和转换进行合并，将它们视为一个整体。例如，对于一些具有相似行为的任务或阶段，可以将它们合并为一个等效的任务或阶段。这样做不仅可以减少状态的数量，还可以简化模型的结构，提高模型的可分析性。

通过应用集总技术，本文提出的SRN模型能够在处理多个同时运行的作业、多个用户以及每个作业的多个阶段时，仍然保持较高的可扩展性。实验结果表明，经过集总技术处理后的模型，在预测Spark应用执行时间方面具有较高的准确性，平均误差约为14.5%，并且分析 - 数值模型求解器的平均运行时间仅为15秒。

5. 多类模型

在实际的大数据处理环境中，往往存在多个不同类型的作业同时运行，这些作业可能具有不同的优先级、资源需求和执行时间。为了更准确地模拟这种多类环境，本文还提出了多类SRN模型。

多类SRN模型在单类模型的基础上进行了扩展，考虑了不同类作业之间的竞争和交互。模型中引入了多个作业类，每个类都有自己的作业队列和资源需求。不同类的作业在竞争资源时，会根据YARN容量调度器的策略进行分配。

在多类模型中，每个作业类的行为与单类模型类似，但增加了类之间的交互机制。例如，当一个类的作业获得了其所需的全部资源后，它会释放剩余的资源，以便其他类的作业能够使用。同时，模型还考虑了不同类作业的优先级，高优先级的作业在资源分配时会优先得到满足。

通过多类SRN模型，可以更准确地评估在多类环境下大数据应用的性能。模型可以预测不同类作业的执行时间、资源利用率等性能指标，为优化集群配置和作业调度提供有力的支持。

6. 实验结果与验证

为了验证本文提出的SRN模型的有效性，进行了一系列实验。实验使用了TPC - DS基准测试，并在CINECA意大利超级计算中心进行。

实验结果表明，提出的模型在预测Spark应用执行时间方面具有较高的准确性。平均误差约为14.5%，这表明模型能够较好地反映实际应用的执行情况。同时，分析 - 数值模型求解器的平均运行时间仅为15秒，说明模型具有较高的计算效率，能够在合理的时间内完成分析和求解。

为了更直观地展示实验结果，下面给出一个实验数据的表格：
| 实验序号 | 实际执行时间（秒） | 模型预测时间（秒） | 误差（%） |
| ---- | ---- | ---- | ---- |
| 1 | 120 | 130 | 8.33 |
| 2 | 200 | 220 | 10 |
| 3 | 350 | 390 | 11.43 |
| 4 | 400 | 460 | 15 |
| 5 | 550 | 630 | 14.55 |

从表格中可以看出，模型的预测时间与实际执行时间较为接近，误差在可接受的范围内。

此外，还进行了不同场景下的实验，包括不同数量的作业、不同的资源配置等。实验结果表明，模型在各种场景下都具有较好的适应性和准确性，能够为大数据应用的性能评估和优化提供可靠的依据。

7. 结论与未来工作

本文提出了一种可扩展的SRN模型，用于预测多阶段MapReduce和Spark应用的执行时间。通过引入集总技术，有效地解决了随机模型中状态空间爆炸的问题，提高了模型的可扩展性。实验结果验证了模型的准确性和计算效率，表明该模型能够为大数据应用的性能评估和优化提供有力的支持。

未来的工作可以从以下几个方面展开：
- 模型的进一步优化 ：可以探索更先进的集总技术或其他优化方法，进一步提高模型的准确性和可扩展性。
- 考虑更多的因素 ：在实际的大数据处理环境中，还存在许多其他因素会影响应用的性能，如网络延迟、数据倾斜等。未来的模型可以考虑这些因素，以更准确地模拟实际情况。
- 与实际系统的集成 ：将提出的模型与实际的大数据处理系统进行集成，实现实时的性能评估和优化，为系统的管理和调度提供更及时的决策支持。

graph LR
    A[未来工作] --> B[模型的进一步优化]
    A --> C[考虑更多的因素]
    A --> D[与实际系统的集成]

通过不断地改进和完善模型，有望为大数据应用的性能提升和资源优化提供更有效的解决方案。