author: 吴培坚(janick) 大数据平台研发工程师
1、背景
生产中flink集群cpu利用率在10%左右,经过任务配置算力调优,最多提高到14%~18%区间内。要想进一步压榨资源,提高利用率,只能从时间维度上入手。
Flink实时任务是常驻线上且独占资源的任务,而业务数据在时间维度上存在明显的高低峰波,故其计算所需算力在不同时间也存在差异。在凌晨数据低峰时,弹出的冗余算力可以供离线调度等夜间算力需求高的业务使用。
2、目标
- 简化资源配置,用户不需要理解flink资源相关概念与配置逻辑
- 提高资源利用率,减少资源滥用
- 无人为干涉动态调整资源,能根据数据量自动调整计算吞吐,避免数据长时间积压
3、设计
3.1功能拆解:
- 资源推荐
- 任务扩缩容
3.2 资源推荐:
3.3 扩缩容设计:
4、实践效果
任务资源利用率
任务算力占用走势