源自双11混部实战,Koordinator 如何保障应用服务质量?

Koordinator是一款开源项目,旨在解决应用混部过程中的接入和稳定高效运行问题。通过资源优先级划分、QoS保障策略及应用干扰检测等手段,有效提升了资源利用率和服务质量。

作者:张佐玮、韩柔刚 Koordinator 团队

在洪峰流量下,如何确保应用的服务质量不受影响的同时,最大限度提升资源利用率,是考验混部技术成熟度的关键。本文将展开介绍Koordinator在资源隔离,单机QoS保障,以及应用干扰检测方面的设计实现和进展。

一、背景

今年双十一已经正式落下帷幕,转眼间,这个节日已经走过了14个年头。对阿里巴巴的技术人员来说,每年的双十一都是一次大考,是评价一项技术成熟度的关键因素;同时,双十一又是一个绝佳的孵化平台,各种极致的指标要求不断催生着新技术的演进和创新。 

离线混部系统作为阿里巴巴的核心项目,自2014年起已经连续通过了8年双十一的考核,历经三轮大的架构升级,在去年完成了向“统一调度技术”的全面升级。目前,阿里巴巴实现全业务规模超千万核的云原生混部,混部 CPU 利用率超 50%,助力 2022 年“双11”计算成本大幅下降。

二、Koordinator的发展历程

基于在混部技术领域多年的实践经验,阿里巴巴正式开源了 Koordinator 项目,帮助企业快速收获云原生混部带来的技术红利,提高全局的资源利用效率。Koordinator 有效解决了广大企业在应用混部的过程中面临的两大挑战:如何将应用接入到混部平台;以及如何让应用在平台上能够稳定、高效的运行。

Koordinator 开源社区自2022年4月正式启动以来,阿里巴巴会同业界多个伙伴一起参与共建,贡献了众多的想法、代码和场景,推动了 Koordinator 项目的成熟发展。日前最新发布的 1.0 版本,在标准化、通用化上做出了更多的突破。

在双十一这种洪峰流量下,如何能够确保应用的服务质量不受影响的同时,最大限度提升资源利用率,是考验混部技术成熟度的关键。

三、什么是 Koordinator

双十一大促中,集群的资源利用率进一步提升,在应用间会存在更多潜在的资源竞争,众多资源隔离机制和单机 QoS 保障策略在过去一次或多次大促实践中得到了考验和锤炼,我们在不断的反馈中逐步迭代出更成熟的方案,标准化输出到 Koordinator 中。

3.1 资源优先级和 QoS

阿里巴巴的混部系统基于不同工作负载类型的资源需求特征,将应用按优先级(Priority)和服务质量(QoS)划分为出不同的资源保障等级。其中,Priority 表示应用满足资源的先后顺序,比如在调度队列的相对位置,以及节点上资源不足时保障运行的先后,包含了 Prod、Mid、Batch 和 Free 四个 PriorityClass,对应不同的资源调度模型,低优先级能够复用高优先级已分配但未使用的资源。QoS 表示应用在节点上运行时得到的物理资源质量,包含了 LSR(Latency-Sensitive Reserved)、LS(Latency-Sensitive)和 BE(Best Effort),对应着节点上物理资源分配的差异,例如 CPU 绑核、内核调度优先级、LLC 资源划分等。

不同优先级应用间的资源复用带来了混部后的利用率提升,另一方面也对应用资源质量的保障带来了挑战,因此需要在混部系统中合理地规划应用的 Priority 和 QoS 等级。例如,电

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值