# 服务状态检查
systemctl status mysqld # MySQLps-ef|grep postgres # PostgreSQL# 端口监听验证
ss -ltnp|grep3306# 确认数据库端口已监听
3. 权限体系验证流程
(1) 账号权限三维度
graph LR
A[认证维度] --> B[密码正确性: ALTER USER TEST IDENTIFIED BY 'NEW_PWD']
A --> C[访问维度: GRANT ALL ON test.* TO 'test'@'192.168.%.%']
A --> D[操作维度: SHOW GRANTS FOR 'test'@'%' | grep INSERT]
RDS特殊点:
禁止使用root账号远程访问,需创建普通账号并授权
白名单优先级高于安全组,需同时校验控制台白名单配置
二、性能劣化故障:全链路追踪体系(资源→SQL→锁→连接)
1. 资源瓶颈定位模型
(1) 核心指标阈值
指标类型
预警阈值
优化动作
CPU利用率
>80%(持续15分钟)
升级规格(RDS控制台→变更配置)
内存利用率
>90%
增加缓冲池大小(如InnoDB_buffer_pool_size=80%内存)
磁盘写入IOPS
超过磁盘类型上限(ESSD PL1: 5000 IOPS)
切换存储类型(ESSD PL2/PL3)
连接数
超过max_connections 80%
扩大连接池或优化应用连接管理
(2) 阿里云监控组合
# 实时进程分析(ECS自建)top-c-n1|grep mysql # 定位CPU高占用线程# RDS专属监控
SELECT * FROM information_schema.rds_metrics # 查看QPS/TPS等云原生指标
-- 查找阻塞事务SELECT
t.trx_id,
t.trx_state,
l.lock_mode,
r.USER,
r.HOST
FROM
information_schema.innodb_trx t
JOIN
information_schema.innodb_locks l ON t.trx_id = l.lock_trx_id
JOIN
information_schema.processlist r ON t.trx_mysql_thread_id = r.ID;
优化策略:
避免在事务中使用SELECT FOR UPDATE锁定过多行
对高并发表启用分段锁(如按日期分表)
三、数据异常故障:ACID保障体系(备份→同步→校验→恢复)
1. 主从同步修复流程
(1) RDS主备复制诊断
状态
故障原因
解决方案
Slave_IO_Running: No
网络中断/IO异常
检查VPC连通性,重启备节点(控制台→实例操作→重启)
Slave_SQL_Running: No
SQL执行失败(如外键冲突)
跳过错误(SET GLOBAL SQL_SLAVE_SKIP_COUNTER=1)
Seconds_Behind_Master: >300s
主库压力过大
开启并行复制(RDS控制台→参数设置→slave_parallel_workers=4)
2. 数据一致性校验方案
(1) 全链路校验工具链
数据库类型
校验工具
阿里云服务集成
MySQL
pt-table-checksum
DBS数据校验任务(控制台可视化配置)
MongoDB
mongodump + bsondiff
DTS数据同步任务自带校验功能
PostgreSQL
pg_dump + diff
DMS数据对比功能(支持表级/行级对比)
(2) 误操作恢复SOP
紧急暂停:kill应用连接(RDS控制台→连接管理→终止会话)
时间点恢复:
# RDS基于备份恢复到临时实例
控制台→备份恢复→选择时间点(需在保留期内)→创建新实例
差异同步:使用DTS将临时实例数据反向同步至生产库(需开启binlog复制)
四、存储性能故障:云原生存储优化路径
1. 磁盘空间管理体系
(1) 自动清理策略
数据库类型
日志清理命令
阿里云最佳实践
MySQL
PURGE BINARY LOGS BEFORE NOW() - INTERVAL 7 DAY;
RDS控制台→日志管理→自动清理开关(建议保留7天)
PostgreSQL
DELETE FROM pg_stat_activity WHERE query LIKE ‘%LOG%’;