Who limits the resource efficiency of my datacenter: an analysis of Alibaba datacenter traces
这篇文章发在 IWQoS 2019,是包云岗老师团队的工作,对阿里巴巴 2018 年公布的第二版开源数据进行了详细的分析,主要聚焦在数据中心资源使用效率上。
阿里巴巴在 2018 年 12 月公布了其第二版开源数据,这版数据包含了4000+台机器的9天运行时数据,包括 4K 台机器、9K 个在线任务和 4M 个离线任务的静态和运行时数据。
需要注意的是,2017、2018 这两版数据,均是阿里巴巴内部私有云的集群数据,并不是阿里云的数据。
开源数据传送门:https://github.com/alibaba/clusterdata
论文传送门:https://dl.acm.org/citation.cfm?doid=3326285.3329074
本文从阿里巴巴调度框架中,在线任务和离线任务资源分配方式的不同切入,揭示了三个 insight:
- 在阿里巴巴的混部集群中,内存似乎成为了新的瓶颈,限制了资源使用效率的进一步提升。
- 离线任务作为二等公民,因其优先级较低,被限制只能使用有限的资源,且遭受了频繁的重调度。
- 在这版数据集中,90%以上的在