Ceph在线迁移：8PB数据从Filestore到Bluestore

最新推荐文章于 2025-04-02 18:07:18 发布

新钛云服

最新推荐文章于 2025-04-02 18:07:18 发布

阅读量986

点赞数

文章标签： java 大数据数据库分布式编程语言

本文链接：https://blog.youkuaiyun.com/NewTyun/article/details/108091153

版权

本文介绍了Cancer Genome Collaboratory如何在生产环境中进行Ceph集群的在线数据迁移，从Filestore后端转换到Bluestore，以提升写入性能。迁移过程包括节点数据清空、OSD转换、回填数据等步骤，并讨论了迁移对集群的影响和遇到的问题。整个迁移项目耗时约一个月，期间集群仍能正常服务于科研人员的基因组数据需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍

Cancer Genome Collaboratory 是一个为癌症研究而设计的云计算环境，也是ICGC项目的全基因组数据存储库。我们使用OpenStack和Ceph来提供一个可扩展和可靠的基础设施。在这种情况下，通过升级来维护软件是我们最重要且最耗时的任务。无论您是在追求新功能、BUG修复、安全补丁还是可支持性，我们似乎总是在计划下一次升级。

关于我们的Ceph环境

我们的Ceph集群诞生于2014年，建立在Ceph Giant的基础上，期间升级到Hammer，然后升级到Ceph Jewel，今年又升级到Luminous。直到Luminous为止，我们的对象存储守护程序（OSD）一直使用当时唯一可用的OSD后端文件存储：XFS和Journal以及3副本来实现数据冗余。多年来，我们的OSD数量一直在稳定增长，为了使每TB的利用价值最大化，并在数年内分散我们的成本，这样，只有在预测容量瓶颈时才会购买硬件。

我们目前有37个存储节点，每个存储节点有36个物理磁盘，总共有1332个OSD。如前所述，随着时间的推移，购买节点意味着我们的硬盘大小从4 TB到12 TB不等。我们的最小节点为144 TB，而最大节点为432 TB。每个存储节点都有2个独立的SSD用于操作系统，256 GB的RAM，双核至强CPU和40 Gbps的网络功能（通过使用vlan来划分流量类型（Ceph Public，cluster等））。

我们的Ceph集群的主要用来存储那些非常大的基因组文件，这些文件使用RADOS网关对象存储API供研究人员使用。我们还使用Cinder为OpenStack环境提供了卷支持，但它不到Ceph集群总利用率的1%。

Ceph Luminous中的Bluestore

Bluestore是从Ceph Luminous版本开始支持的新的默认存储后端，它建议将写入性能提高2倍，在某些情况下，通过消除Filestore Journal和XFS分区上发生的双重写入损失，有时可以提高写入性能。最值得注意的是，Bluestore删除了POSIX文件系统存储Ceph数据的要求。架构差异见下图。

先决条件

由于Bluestore首次在Luminous版本中得到官方支持，我们需要从Ceph Jewel升级到Luminous。我们使用Ubuntu16.04和该发行版的官方Ceph包，所以这是一个直接的升级过程：添加了对应版本仓库，并在我们的mon，radosgw和OSD节点上升级Ceph软件包。

迁移方式

数据清空——重建为Bluestore——回填均衡数据！

从Filestore到Bluestore的转换不能在转换节点上有数据且提供服务的情况下进行，因此我们的方法是先将存储节点的数据清空，销毁OSD，然后使用重新准备Bluestore类型的OSD，再从群集中重新填充数据。对群集中的每个存储节点进行数据清空并重复此操作。根据您的Ceph架构，您可以并行地操作几个存储节点，以减少总的迁移时间。我们将一次迁移2-3个存储节点，每个节点位于不同的机架中（我们的故障域单位为机架），并在删除以及填充数据过程中尽量保持在20%的“misplaced objects”以下。

为了使此操作成功，您必须确保集群有足够的可用空间，以应对当一个节点必须将其所有数据迁移到集群的其余节点