背景
随着业务爆炸式增长与云原生技术的日渐成熟,大量云原生分布式数据库产品如雨后春笋般涌现,其中一部分主打 OLTP 场景的分布式数据库强调的是从计算-存储分离架构获得弹性收益;对于业界各种计算-存储分离架构的数据库而言,怎么用真实的端到端数据库 workload 去 benchmark 其底层存储系统一直存在以下难题:
对于数据库专用存储系统,不存在如 fio 一样的“事实标准” benchmark 模型
数据库专用存储系统实现与经典存储差别较大。若仍然将其当作经典存储来设计 benchmark,没有考虑数据库特点,会导致端到端存在“脱节”现象
为了解决上述问题,我们希望为字节跳动 veDB 底层的专用存储系统设计出契合数据库特点的 benchmark 模型。本次我们提出了 CDSBen 模型,利用 机器学习 方法,根据真实的数据库 端到端 事务 pattern 预测出对存储层的 IO pattern,从而对存储系统实现真实、精准的 benchmark。 相关文章 《 CDSBen: Benchmarking the Performance of Storage Services in Cloud-native Database System at ByteDance 》 发表于 VLDB 2023。
veDB 简介
veDB 是字节跳动基于计算-存储分离架构实现的,服务于 OLTP 场景的云原生分布式数据库,其目标是:
高弹性 : 计算层 & 存储层解耦,可独立按需扩缩容,解决单机扩展性问题。
高性价比 : 通过一系列深度的计算/存储内核优化,最终提升性能降低成本。
高易用性 : 完全兼容 MySQL、PG 等开源