Ceph存储系统mClock与WPQ调度器QoS对比研究-优快云博客

Ceph存储系统mClock与WPQ调度器QoS对比研究

ceph Ceph is a distributed object, block, and file storage platform 项目地址: https://gitcode.com/gh_mirrors/ce/ceph

引言

在分布式存储系统Ceph中，I/O调度器对系统性能和服务质量(QoS)起着至关重要的作用。本文将深入分析Ceph中两种主要调度器——mClock和加权优先级队列(WPQ)的性能表现，特别关注它们在客户端I/O与后台恢复操作并发场景下的QoS保障能力。

调度器基础原理

mClock调度器

mClock是一种基于dmClock算法的QoS感知调度器，它为每种服务类型提供三个关键控制参数：

预留(reservation)：确保服务获得的最低资源配额
权重(weight)：决定服务间资源分配的比例关系
限制(limit)：设置服务可使用的资源上限

在Ceph中，mClock主要管理以下服务类型的I/O请求：

客户端I/O
后台恢复
数据清理(scrub)
快照修剪(snap trim)
PG删除操作

WPQ调度器

加权优先级队列是Ceph传统的调度机制，它通过简单的优先级和权重分配来决定请求处理顺序，缺乏细粒度的QoS控制能力。

测试环境与方法论

硬件配置

计算节点：双路Intel Xeon E5-2650 v3，40逻辑核心，64GB内存
存储设备：
- NVMe SSD：Intel DC P3700系列(4×800GB)
- HDD：Seagate Constellation(4×1TB) 7200转

软件配置

操作系统：CentOS 8.1
Ceph版本：Quincy开发版(17.0.0)
性能调优：network-latency优化配置

基准性能

通过4KiB随机写测试获得的基准IOPS： | 设备类型 | 基准IOPS | 吞吐量 | |---------|---------|-------| | NVMe SSD | 21,500 | 84 MiB/s | | HDD(带WAL/dB) | 340 | 1.33 MiB/s | | HDD(无WAL/dB) | 315 | 1.23 MiB/s |

mClock配置策略

Ceph提供了三种预定义的mClock策略配置：

高客户端操作模式(默认)

+------------------------+-------------+--------+-------+
| 服务类型               | 预留(%)     | 权重   | 限制  |
+========================+=============+========+=======+
| 客户端                 | 50          | 2      | 无限制|
+------------------------+-------------+--------+-------+
| 后台恢复               | 25          | 1      | 100%  |
+------------------------+-------------+--------+-------+
| 后台最佳效果           | 25          | 2      | 无限制|
+------------------------+-------------+--------+-------+

均衡模式

+------------------------+-------------+--------+-------+
| 服务类型               | 预留(%)     | 权重   | 限制  |
+========================+=============+========+=======+
| 客户端                 | 40          | 1      | 100%  |
+------------------------+-------------+--------+-------+
| 后台恢复               | 40          | 1      | 150%  |
+------------------------+-------------+--------+-------+
| 后台最佳效果           | 20          | 2      | 无限制|
+------------------------+-------------+--------+-------+

高恢复操作模式

+------------------------+-------------+--------+-------+
| 服务类型               | 预留(%)     | 权重   | 限制  |
+========================+=============+========+=======+
| 客户端                 | 30          | 1      | 80%   |
+------------------------+-------------+--------+-------+
| 后台恢复               | 60          | 2      | 200%  |
+------------------------+-------------+--------+-------+
| 后台最佳效果           | 1(最小)     | 2      | 无限制|
+------------------------+-------------+--------+-------+

性能对比分析

NVMe SSD测试结果

客户端吞吐量对比

WPQ默认配置：18,000+ IOPS
WPQ激进恢复配置：仅2,544 IOPS(下降86%)
mClock高客户端模式：11,209 IOPS(比WPQ激进配置高4.4倍)

延迟表现

平均延迟：
- WPQ默认：3.535ms
- WPQ激进：25ms(增长7倍)
- mClock高客户端：5.688ms
99.5百分位延迟：
- mClock各配置间差异小于10%

恢复性能

恢复完成时间：
- 高客户端模式：966秒
- 均衡模式：647秒
- 高恢复模式：488秒

HDD测试结果(带WAL/dB)

客户端吞吐量保持稳定，各mClock配置间差异小于5%
恢复操作对客户端延迟影响显著降低

技术洞察与实践建议

容量规划关键性：mClock效能高度依赖准确的OSD吞吐量配置，管理员应定期进行基准测试更新参数。
场景化配置选择：
- 生产高峰时段：建议采用高客户端模式
- 维护窗口期：可切换至高恢复模式加速数据修复
- 平衡型业务：均衡模式提供折中方案
性能调优要点：
- 对于NVMe设备，mClock可有效防止恢复操作淹没客户端请求
- HDD环境下，WAL/dB配置可显著改善QoS一致性
- 激进恢复参数需谨慎使用，可能造成严重性能劣化
监控指标：应重点关注99百分位延迟和恢复进度指标，它们最能反映真实用户体验。