并行环境下数据流执行的成本建模
在并行计算环境中,准确估计数据流执行的响应时间至关重要。传统的成本模型往往无法充分考虑并行性对响应时间的影响,导致估计结果不准确。本文将介绍一种新的成本模型,该模型能够考虑任务执行过程中的时间重叠,并量化并发任务执行的影响。
1. 预备知识
数据流可以用有向无环图(DAG)表示,其中每个顶点对应一个任务,边表示任务之间的通信(即任务之间的中间数据传输)。数据流可以有多个源和多个汇,源是没有入边的任务,汇是没有出边的任务。
每个数据流具有以下元数据:
- 成本(ci) :适用于每个任务,表示处理该任务所有输入记录所需的成本,包括CPU周期、磁盘I/O和网络流量成本。
- 通信成本(cci→j) :适用于边,表示任务vi和vj之间的数据传输成本,不包括ci中包含的通信相关成本。
- 任务并行类型(pti) :描述任务执行时的并行类型,分为流水线(p)和非流水线(np)。非流水线任务需要所有输入元组才能开始产生结果。
2. 成本模型
2.1 响应时间的广义成本模型
定义以下成本模型来估计响应时间:
Response Time (RT) = ∑ziwcci + ∑zijwcccci→j
其中,变量zi = {0, 1}是二进制的,仅对于确定RT的任务定义为1。ci表示第i个任务的成本,wc和wcc分别是任务执行和任务间通信时影响RT增加或减少的权重。z变量捕捉不同任务的时间重叠,wc和wcc量化一个任务的执行对其他并发任务的影响
超级会员免费看
订阅专栏 解锁全文
4万+

被折叠的 条评论
为什么被折叠?



