mongo-节点出现recovering状态的处理办法

当MongoDB副本集成员因服务挂掉或网络问题变为recovering状态时,可采取两种恢复策略。方案一是停服、删除数据后重启,服务会自动从主成员同步,需保证充足内存。方案二是直接同步主节点数据,要求数据无变动,适合能停服的情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、问题

当因为mongod服务挂掉太久,或者因为网络等原因导致副本集成员跟不上oplog,就会变成recovering状态,此时有两种方式可以恢复

二、恢复办法

方案一、

1.停止mongod服务(坏掉的副本的服务)

db.shutdownServer()
# 或者
mongod --shutdown

2.删除改副本下的数据

3.启动mongod服务

说明:
启动mongo服务后,新的副本集成员会自动同步主成员的数据,但是同步期间会占用较大的内存,所以这时候要保证足够的内存,不然可能会再次宕机

方案二、

1.停止mongod服务(坏掉的副本的服务)

2.将主节点的数据(或者最新的副本数据)同步到当前节点的数据目录下

3.启动mongod服务

说明:
这种方法同步很快,但一般不会成功,因为这种方法的前提就是数据不会有任何变动,如果可以停服,那么可以采用这种方法

官方文档:
mongo管理流程
重新同步副本集成员

### 解决方案 当遇到 `not master and slaveOk=false` 错误时,通常是因为客户端尝试访问的是次级节点 (secondary node),而该操作未设置允许读取次级数据的选项。以下是详细的分析和解决方案: #### 1. **错误原因** 此错误表明当前连接的目标节点不是主节点(primary node),并且请求的操作不允许在次级节点上执行。默认情况下,MongoDB 驱动程序会将查询发送到主节点以确保一致性[^1]。 如果应用程序试图在一个非主节点上执行写入或其他仅限于主节点的操作,则会出现此类错误。此外,在某些场景下(例如复制集初始化期间),可能会短暂出现这种状态[^4]。 #### 2. **解决方法** ##### 方法一:修改读偏好(Read Preference) 可以通过调整驱动程序中的读偏好来解决问题。具体来说,可以显式指定允许从次级节点读取数据。这适用于那些不需要强一致性的只读查询。 对于大多数编程语言支持的 MongoDB 客户端库,都可以通过以下方式实现: ```go options := options.Client().ApplyURI("mongodb://your-replica-set-uri").SetReadPreference(readpref.SecondaryPreferred()) client, err := mongo.Connect(context.TODO(), options) if err != nil { log.Fatal(err) } defer func() { _ = client.Disconnect(context.TODO()) }() ``` 上述代码片段展示了如何使用 Go 语言中的 MongoDB Driver 设置读偏好为 SecondaryPreferred,这意味着优先从次级节点读取数据,但如果不可用则回退至主节点[^2]。 ##### 方法二:确认副本集配置正确无误 有时问题可能源于副本集本身的配置不当。因此建议重新验证副本集的状态是否正常工作。运行如下命令检查成员健康状况以及选举情况: ```bash rs.status() ``` 这条指令能够展示整个集群中各个节点的角色及其连通性详情。如果有任何异常发现——比如某个节点长期处于 STARTUP 或 RECOVERING 状态——那么就需要进一步排查网络或者存储层面是否存在瓶颈[^3]。 ##### 方法三:增加重试逻辑处理瞬态故障 由于在网络不稳定条件下可能发生短时间内的无法连接现象,适当引入指数退避算法配合固定次数上限的自动重试机制不失为一种稳健策略。下面给出 Python 版本的一个简单例子作为参考: ```python from pymongo.errors import AutoReconnect, ConnectionFailure import time def retry_mongodb_operation(func, *args, max_retries=5, initial_wait_time=0.5, backoff_factor=2, **kwargs): retries = 0 wait_time = initial_wait_time while True: try: result = func(*args, **kwargs) return result except (AutoReconnect, ConnectionFailure) as e: if retries >= max_retries: raise print(f"Retrying after failure ({e}). Retry count={retries}") time.sleep(wait_time) wait_time *= backoff_factor retries += 1 ``` 这段脚本定义了一个通用函数用于包裹任意可能导致断开连接的任务,并在其失败之后按照预设规则等待再重复尝试直到成功为止或达到最大限制停止。 --- ### 总结 综上所述,“Not Master And SlaveOK=False”的问题是关于 MongoDB 复制集中角色分配与权限控制方面的典型代表之一。通过对读偏好的合理设定、基础架构健全度的确保还有针对临时性事件设计良好的恢复流程这三个方面入手往往能有效缓解乃至彻底消除这类困扰。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值