openEuler 资源利用率提升之道 01:概论

本文探讨了全球云基础设施服务支出增长背景下,数据中心资源利用率低下的问题及成因,包括任务和资源调配失衡等。提出通过混合部署、资源超卖和错峰使用等策略提升资源利用率,并介绍了华为在L1至L3阶段的技术解决方案,如预测调度、QoS量化和资源隔离。目前,华为已实现L2阶段并在内部验证,计划进一步突破黑盒业务QoS保障技术,目标是提升到L3阶段并最终实现资源利用率全面提升。

问题背景

据 Canalys 发布的一份报告显示 [1],全球云基础设施服务支出在 2022 年第一季度同比增长 34%,达到 559 亿美元。然而,多个研究表明,当前全球数据中心用户集群的平均 CPU 利用率低于 20%,存在巨大的资源浪费。因此,提升数据中心资源利用率是当前急需解决的一个重要问题 [2]。

问题成因

资源利用率低下的主要原因是任务和资源调配失衡,这种失衡又有多种表现形式,例如:

  1. 调度系统和集群独立:不同的作业采用不同的调度系统,作业不能在更加广泛的集群中流动,其他集群的空闲资源不能有效利用。
  2. 任务类型缺乏多样性:集群中的作业同质化严重,作业集中使用一部分资源,导致这部分资源利用率较高,但是其余资源空闲。
  3. 缺乏优先级分级管理:要么是缺乏低优先级作业填补空闲资源,要么是有低优先级作业但是集群不具备分级管控能力,导致资源过度分配。
  4. 集群中资源类型单一:集群内部资源整体规格单一,不能根据总体业务对各类资源的动态需求进行弹性伸缩,导致部分资源配置过高。

总体而言,是集群内部任务和资源的多样性不足,调度对多样性任务和资源的管理能力薄弱导致。

解决思路

将不同类型的作业混合部署,分别从时间上和空间上提升资源的使用率。

  • 资源超卖(空分超卖):在线业务的空闲资源超卖给离线作业,提升总体资源利用率。
  • 错峰使用(时分超卖):在线业务的空闲时段填充离线作业,减少资源空转。

技术挑战

不论是空分超卖还是时分超卖,都存在共峰资源不足的问题,该问题会导致部分业务服务质量(QoS)受损。如何在提升资源利用率之后,保障业务 QoS 不受损是技术上的关键挑战。

此外,云上业务的多样性和复杂性进一步加大了保障服务质量的难度:

一方面,从负载特征可感知程度,可以分为白盒应用,黑盒应用和灰盒应用。白盒应用可以被系统感知内部

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

openEuler社区

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值