MySQL读写分离一遇高并发访问，所有服务瞬间集体罢工，问题解决如坐过山车，太刺激了

点击上方“猿芯”，选择“设为星标”

后台回复"1024"，有份惊喜送给面试的你

前言

最近系统（基于 SpringCloud + K8s）上线，运维团队早上 8 点左右在群里反馈，系统登录无反应！我的第一反应是 MySQL 数据库扛不住了。

排查问题也是一波三折，有网络问题，也有 MySQL 读写分离后数据库参数优化问题。

问题回顾

1、运维团队早上 8 点左右在群里反馈，系统登录无反应。

2、DevOps 团队通过查看 Kibana 日志

发现 ELK、K8s 集群、Redis、Mongodb、Nginx、文件服务器全部报：”Connect Unknown Error“，中间件服务集体挂彩，团队成员惊出一身冷汗。。。一想到某联大领导每日混迹于办公门户，瑟瑟发抖呀。。。

心里嘀咕难道 K8s 容器也挂了？那还怎么玩？

3、查看监控短信，连续收到数据库读写分离Master-Slave警告信息

问题定位

1、Connect Unknown Error

经过从 K8s 团队确认，在早上 8 点左右出现了网络中断，持续了大概 1 分钟左右，导致 K8s 平台剔除响应超时的微服务节点，同时不断的启动新的容器。通过日志分析，8 点半左右容器平台恢复正常，但是前台页面查询数据很慢（后来定位是 MySQL 数据库服务器 CPU 占用 92% ，导致数据库服务器处理应用请求很慢）。

2、MySQL 读写分离 Master-Slave 警告信息

MHA架构

MySQL 读写分离是采用 MHA 架构，一主两从（Master-Slave）。

Master 负责数据的写操作，同时通过 binlog 日志同步到两个 Slave 从库，从库负责应用程序的查询操作。

在报 Connect Unknown Error 异常后，我们检查了 MySQL 服务器，发现 Master 节点 CPU 占用 92%（应用层读写请求全部路由到了 Master节点原因导致），而两个 Slave 节点全部处于空闲状态，并且主从数据不同步了。

3、数据库DBA通过查看 MySQL 的 show processlist 命令，发现有大量的 “create sort index（排序索引）” SQL 语句（约 36 个）

经排查发现有个 cms_article 表有几百万的数据，客户端分页查询请求，虽然只取 10 条数据行，但是实际查询了几百万行数据，而且要在数据库内存中进行了几百万数据内存排序。所以出现了大量的 create sort index 排序索引。而且频繁执行 Create Sort Index 会造成 MySQL 占满服务器 CPU，导致服务器请求无响应，甚至假死状态！

解决办法

1、Connect Unknown Error

K8s 平台自动剔除响应超时的微服务节点，同时启动新的容器，直至恢复到故障前的容器节点水平，依靠 K8s 平台自我修复。

2、MySQL 读写分离 Master-Slave 警告信息

恢复步骤

重启 Master-Slave 节点，应用层读写请求正常，但是主从数据还是不同步，经定位是 mysql 同步线程 Slave_IO_Running 和 Slave_SQL_Running 都为 No 。
晚上重启 Slave_IO_Running 和 Slave_SQL_Running binlog 日志同步线程