大规模处理任务的不稳定性建模与云技术资源规划
1. 事件状态建模
在生产作业的生命周期中,为了对主要服务层进行建模,研究首先考虑了基于作业预期和失败状态构建的作业状态指标。作业状态通常在有效状态和错误状态之间波动,我们希望找到一种度量方法,能够捕捉到进入错误状态的作业数量超过正常状态的情况。
基于作业生命周期,考虑了 12 种有效状态和 16 种错误状态,构建了参数 (S_{job}(t)):
[S_{job}(t) = \frac{\sum valid(t)}{\sum error(t)}]
类似地,计算了作业代理状态比率 (S_{jobagent}(t)),作业代理负责在资源域上执行作业。基于作业代理生命周期,考虑了 4 种有效状态和 7 种错误状态。当某一类型的作业状态数量为 0 时,该类型状态的总和取值为 1。
为了捕捉在短时间内进入错误状态的作业数量增加的情况,使用了误差类型窗口内的中位数绝对偏差(MAD)之和 (Err_{job}(t)):
[Err_{job}(t) = \sum median(|Error_i - median(Error)|)]
存储是计算工作流的关键部分,会导致大量故障。WLCG 旨在促进任务和数据在各个站点之间的复制,使站点调度器能够处理 I/O 受限的作业。但生产任务依赖于网络可变性,会影响存储性能,同时存储问题也会影响作业的读写阶段。最初开发的状态比率类似 (S_{job}(t)),但结果指标产生了噪声测量,因此使用了传输吞吐量 (throughput_{transfers}(t)) 和丢失传输数量之和 (lost_{transfers}(t))。
网络故障通
超级会员免费看
订阅专栏 解锁全文
3684

被折叠的 条评论
为什么被折叠?



