云计算硬件与软件:集群管理与资源隔离技术解析
1. Borg任务与系统性能评估
Borg任务的状态会因用户请求或系统操作而改变。为避免对每台机器上的每个待处理任务进行可行性判断,Borg按任务等价类(即具有相似需求的任务)计算可行性和得分。而且,这种评估并非针对集群中的每台机器,而是在随机机器上进行,直到找到足够合适的机器为止。
BorgMaster的状态可以保存为检查点文件,用于后续系统性能和有效性的研究,或恢复到早期的系统状态。FauxMaster模拟器通过重放检查点文件来识别系统错误和性能问题,有助于改进Borg系统。
在Google的一个12000台服务器的集群中,收集到的结果显示,CPU总利用率为25 - 35%,内存总利用率为40%。使用预留系统后,这两个数字分别提高到75%和60%。
2. 共享状态集群管理
在大规模集群调度中,由于系统规模和工作负载的多样性,高效调度是一个极具挑战性的问题。Omega系统的设计者认识到这一点,采用了一种新颖的方法。
Omega系统针对的Google系统工作负载包括生产/服务作业和批处理作业。其中,超过80%的工作负载是短批处理作业,会产生大量任务;而55 - 80%的资源分配给长时间运行且任务数量少于批处理作业的生产作业。调度要求包括批处理作业的短周转时间以及生产作业的严格可用性和性能目标。
随着集群规模和任务粒度的增加,调度器的工作量也会增加。任务粒度越细,调度器需要做出的决策就越多,从而导致空间和时间资源碎片化的可能性增加,资源利用率降低。
Omega系统的设计解决方案是允许多个独立的调度器访问由无锁乐观并发控制算法保护的共享
超级会员免费看
订阅专栏 解锁全文
1193

被折叠的 条评论
为什么被折叠?



