嘉宾 | 陈东东
出品 | 优快云云原生
2022年7月28日,中国信通院、腾讯云、FinOps产业标准工作组联合发起的《原动力x云原生正发声 降本增效大讲堂》系列直播活动第4讲如期举行,腾讯高级工程师陈东东分享了Caelus全场景在离线混部的实践案例。本文整理自陈东东的分享。
在离线混部背景及意义
各大权威机构的调研数据显示,在线资源利用率普遍很低,平均在15%左右。
上图是某一在线CPU的使用曲线,在这里可以看出,在线资源使用的潮汐现象十分明显。业务方在申请资源时只能按照波峰时段的资源使用量进行申请,这就导致在波谷时段会有大量资源被浪费。
在线资源利用率低的原因可以概括为以下几点:
-
非容器化部署,未能利用整机资源;
-
业务容灾Buffer资源;
-
资源使用潮汐现象;
-
粗放的资源评估,占而不用;
-
业务之间相互隔离。
从上图可以看出,近年来我们对大数据的需求在逐步增高,这意味着我们需要投入更多成本来获取更多算力来对数据进行分析。离线作业运行时具有延迟不敏感、实时性不高、执行周期短等特点,利用该特点我们可以在在线任务的波谷时段混部离线任务,这为解决在线任务波谷时段有大量资源浪费提供了一种新的思路。
通过在离线混部,可以实现提升机器资源利用率、优化成本等目标,同时能够充分释放资源价值,降低能源消耗,助力双碳。
在离线混部现状痛点
在离线混部在落地过程中存在诸多痛点。
-
定制化
-
技术栈定制化,不宜推广;
-
平台升级需适配,维护成本高;
-
混部场景单一,大部分混部系统只关注容器化场景,忽略了非容器化场景,部分混部方案依赖大数据任务云原生化改造,难以支持Hadoop场景。
-
-
资源价值挖掘不充分
-
资源复用策略不够精细,利用率提升有限;
-
离线失败率高,浪费算力资源。
-
-
技术深水区
-
缺乏干扰检测与处理机制;
-
缺乏完善的资源隔离机制;
-
调度性能不满足离线高并发需求;
-
缺乏容器热迁移机制,离线作业在资源受压制时只能被驱逐。
-