集群性能优化:动态负载与算法实现
1. 问题提出
在集群性能优化领域,主要关注两个性能指标:作业流时间和计算成本,这两个指标均由作业服务器上花费的总时间计算得出。通常情况下,这两个指标难以同时进行调整(检测方法除外)。为解决这一问题,为每个作业任务定义了一个效用函数,以平衡这两个指标。该函数的目标是通过找到 $z$ 来最大化数据集群中所有作业的总效用规模,由此产生的优化问题可表示为:
$$
\min_{z} \sum_{i=1}^{N} E[\Delta_{i}] + \gamma \cdot \sum_{i=1}^{N} \sum_{j=1}^{m_{i}} \sum_{k=1}^{c_{j}^{i}} (E[C_{j}^{i}] - \omega_{j,k}^{i})
$$
2. 不同运行机制的截止阈值推导
为了进一步探索所提出的方法,需要定义截止工作负载阈值 $\lambda_{U}$,将剩余的分析阶段划分为易于处理的任务。
- $\lambda_{U}$ 的第一个上界 $\lambda_{1}$ :为使系统不过载,作业到达率必须受作业处理率的限制,从而得出 $\lambda_{U}$ 的第一个上界:
$$
\lambda_{1} = \frac{N M}{\sum_{i=1}^{N} \sum_{i=1}^{m_{i}} c_{j}^{i} E[T_{j}^{i}]}
$$
- $\lambda_{U}$ 的第二个上界 $\lambda_{2}$ :单一上界不能保证克隆的效率。一个高效的克隆策略应比不进行推测执行的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



