ScyllaDB集群成员变更失败处理指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01104/article/details/148378194

ScyllaDB集群成员变更失败处理指南

scylladb ScyllaDB是一个高性能、高度可扩展的NoSQL数据库，设计上兼容Cassandra API，主打低延迟、高并发写入，适用于大规模互联网应用。项目地址: https://gitcode.com/gh_mirrors/sc/scylladb

概述

在分布式数据库ScyllaDB的运维过程中，集群成员变更（如节点加入、移除或替换）是常见的操作。然而，这些操作可能会因各种原因（如节点宕机、网络中断等）而失败，导致集群处于不一致状态。本文将详细介绍如何识别和处理这些失败场景，确保集群快速恢复一致状态。

成员变更失败类型及处理

1. 节点加入(Bootstrap)失败

场景：新节点加入集群过程中发生故障。

处理方法：

首先尝试重启该节点，让其重新执行加入流程
若决定放弃加入该节点，需执行清理操作：
1. 从集群中移除该节点的残留信息
2. 清除该节点的数据目录
3. 可重新尝试加入操作

关键日志：检查节点日志中是否包含"Setting local host id to"消息，记录其host ID。

2. 节点下线(Decommission)失败

两种场景及处理：

数据迁移阶段失败：
- 检查节点日志中是否出现"leaving token ring"消息
- 若未出现，可安全重启节点并重新执行下线操作
令牌环离开阶段失败：
- 切勿尝试重启该节点
- 必须确认节点已完全下线
- 使用removenode操作清理残留信息

注意事项：若无法访问日志，应假设为第二种情况，按相应流程处理。

3. 节点移除(Removenode)失败

处理方法：

直接重试removenode操作
若丢失了目标节点的host ID，需通过查询系统表确定

4. 节点替换(Replace)失败

处理方法：

重启替换节点重试操作
若决定放弃替换：
1. 清理替换节点的残留信息
2. 可选择：
  - 清除数据后重新尝试替换
  - 移除原故障节点后执行常规加入操作

残留成员清理流程

第一步：确定残留成员的Host ID

通过日志查找：
- 对于加入/替换失败：查找"Setting local host id to"日志
- 对于下线失败：同样查找host ID记录

通过系统表查询（通用方法）：

-- 获取Raft group 0 ID
SELECT value FROM system.scylla_local WHERE key = 'raft_group0_id';

-- 查询所有集群成员(包括残留成员)
SELECT server_id FROM system.raft_state WHERE group_id = <group0_id>;

-- 查询令牌环成员状态
SELECT peer, host_id, up FROM system.cluster_status;