问题背景
据 Canalys 发布的一份报告显示 [1],全球云基础设施服务支出在 2022 年第一季度同比增长 34%,达到 559 亿美元。然而,多个研究表明,当前全球数据中心用户集群的平均 CPU 利用率低于 20%,存在巨大的资源浪费。因此,提升数据中心资源利用率是当前急需解决的一个重要问题 [2]。
问题成因
资源利用率低下的主要原因是任务和资源调配失衡,这种失衡又有多种表现形式,例如:
- 调度系统和集群独立:不同的作业采用不同的调度系统,作业不能在更加广泛的集群中流动,其他集群的空闲资源不能有效利用。
- 任务类型缺乏多样性:集群中的作业同质化严重,作业集中使用一部分资源,导致这部分资源利用率较高,但是其余资源空闲。
- 缺乏优先级分级管理:要么是缺乏低优先级作业填补空闲资源,要么是有低优先级作业但是集群不具备分级管控能力,导致资源过度分配。
- 集群中资源类型单一:集群内部资源整体规格单一,不能根据总体业务对各类资源的动态需求进行弹性伸缩,导致部分资源配置过高。
总体而言,是集群内部任务和资源的多样性不足,调度对多样性任务和资源的管理能力薄弱导致。
解决思路
将不同类型的作业混合部署,分别从时间上和空间上提升资源的使用率。
- 资源超卖(空分超卖):在线业务的空闲资源超卖给离线作业,提升总体资源利用率。
- 错峰使用(时分超卖):在线业务的空闲时段填充离线作业,减少资源空转。
技术挑战
不论是空分超卖还是时分超卖,都存在共峰资源不足的问题,该问题会导致部分业务服务质量(QoS)受损。如何在提升资源利用率之后,保障业务 QoS 不受损是技术上的关键挑战。
此外,云上业务的多样性和复杂性进一步加大了保障服务质量的难度:
一方面,从负载特征可感知程度,可以分为白盒应用,黑盒应用和灰盒应用。白盒应用可以被系统感知内部

本文探讨了全球云基础设施服务支出增长背景下,数据中心资源利用率低下的问题及成因,包括任务和资源调配失衡等。提出通过混合部署、资源超卖和错峰使用等策略提升资源利用率,并介绍了华为在L1至L3阶段的技术解决方案,如预测调度、QoS量化和资源隔离。目前,华为已实现L2阶段并在内部验证,计划进一步突破黑盒业务QoS保障技术,目标是提升到L3阶段并最终实现资源利用率全面提升。
最低0.47元/天 解锁文章
1115

被折叠的 条评论
为什么被折叠?



