数据中心硬件资源解聚与操作系统架构创新
1. 传统单体服务器的局限性
传统单体服务器作为数据中心部署和运营的基本单位,存在诸多关键限制:
- 资源利用率低下 :以服务器为资源分配的物理边界,难以充分利用数据中心的所有资源。对谷歌29天和阿里巴巴12小时的生产集群跟踪分析显示,两个集群的CPU和内存利用率仅约为一半。同时,大量作业被驱逐,主要原因是作业的CPU和内存必须从同一物理机分配。
| 集群 | 时间范围 | CPU利用率 | 内存利用率 |
| ---- | ---- | ---- | ---- |
| 谷歌 | 29天 | 约50% | 约50% |
| 阿里巴巴 | 12小时 | 约50% | 约50% |
- 硬件弹性差 :硬件组件安装后,难以添加、移动、移除或重新配置。数据中心所有者需提前规划服务器配置,但随着应用需求变化迅速,这些计划需频繁调整,常导致现有服务器硬件浪费。
- 故障域粗粒度 :单体服务器的故障单元较粗,服务器内某个硬件组件故障时,整个服务器常无法使用,其上运行的应用可能全部崩溃。主板、内存、CPU、电源故障占服务器硬件故障的50% - 82%。
- 对异构性支持不佳 :受应用需求驱动,新硬件技术不断进入数据中心,如GPGPU、TPU、DPU等。但单体服务器模型将硬件设备与主板紧密耦合,新硬件设备与现有服务器适配困难,常需购买新服务器,导致部分资源利用率低,旧服务器需淘汰。
2. 硬件资源解聚架构
服务器为中心的架构难
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



