【腾讯云原生降本增效大讲堂】Caelus全场景在离线混部

本文介绍了腾讯高级工程师陈东东在《原动力x云原生正发声 降本增效大讲堂》中的分享,探讨了在线和离线混部的背景、意义、现状痛点,以及Caelus系统如何实现全场景在离线混部,提升资源利用率和降低成本。Caelus通过多维度指标、干扰检测与处理、资源隔离等关键技术保障在线服务质量,同时解决离线服务质量问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

嘉宾 | 陈东东

出品 | 优快云云原生

2022年7月28日,中国信通院、腾讯云、FinOps产业标准工作组联合发起的《原动力x云原生正发声 降本增效大讲堂》系列直播活动第4讲如期举行,腾讯高级工程师陈东东分享了Caelus全场景在离线混部的实践案例。本文整理自陈东东的分享。

在离线混部背景及意义

各大权威机构的调研数据显示,在线资源利用率普遍很低,平均在15%左右。

上图是某一在线CPU的使用曲线,在这里可以看出,在线资源使用的潮汐现象十分明显。业务方在申请资源时只能按照波峰时段的资源使用量进行申请,这就导致在波谷时段会有大量资源被浪费。

在线资源利用率低的原因可以概括为以下几点:

  • 非容器化部署,未能利用整机资源;

  • 业务容灾Buffer资源;

  • 资源使用潮汐现象;

  • 粗放的资源评估,占而不用;

  • 业务之间相互隔离。

从上图可以看出,近年来我们对大数据的需求在逐步增高,这意味着我们需要投入更多成本来获取更多算力来对数据进行分析。离线作业运行时具有延迟不敏感、实时性不高、执行周期短等特点,利用该特点我们可以在在线任务的波谷时段混部离线任务,这为解决在线任务波谷时段有大量资源浪费提供了一种新的思路。

通过在离线混部,可以实现提升机器资源利用率、优化成本等目标,同时能够充分释放资源价值,降低能源消耗,助力双碳。

在离线混部现状痛点

在离线混部在落地过程中存在诸多痛点。

  • 定制化

    • 技术栈定制化,不宜推广;

    • 平台升级需适配,维护成本高;

    • 混部场景单一,大部分混部系统只关注容器化场景,忽略了非容器化场景,部分混部方案依赖大数据任务云原生化改造,难以支持Hadoop场景。

  • 资源价值挖掘不充分

    • 资源复用策略不够精细,利用率提升有限;

    • 离线失败率高,浪费算力资源。

  • 技术深水区

    • 缺乏干扰检测与处理机制;

    • 缺乏完善的资源隔离机制;

    • 调度性能不满足离线高并发需求;

    • 缺乏容器热迁移机制,离线作业在资源受压制时只能被驱逐。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值