朋友圈群里看到一个朋友贴了一段报错,大概是从库延时了,second_behind_master有29000+,然后看到一个很简单的session会话,堵住那里,并且上面有显示信息:Waiting for table metadata lock。
数据库后台错误日志显示如下:

通过看processlist呢,没有看到这个session前面有堵住的比较大的耗时的sql语句,而且分析这个堵住的sql语句,就是一个简单的加字段的sql,这个表也不大的,那么在哪里呢?
梳理下思路,一般【Waiting for table metadata lock】,主要有以下几个方面的引发原因:
1、select请求
2、rename请求
3、sleep请求
检查下,这3个方面,发现上下文环境里面没有执行过这方面的请求,所以原因还得继续排查的。因为是从库,去看了下,没有开启多线程复制,所以都是单线程的,是串行执行的。 那猜测可能是上一个线程拿了这个加字段的表的锁,没有释放导致。可能是有未提交的事务还在。
去mysql的食物表查了下,果然一个多小时前有几个事务一直么有提交,一直在,这些事务的session也是闲置的sleep状态,与程序猿沟通后,这几个是可以kill掉的。kll掉之后,果然,复制立即恢复 了。

本文记录了一个关于数据库从库延迟的故障排查过程。问题表现为second_behind_master超过29000秒,由于一个简单的加字段操作被阻塞,状态显示为`Waiting for table metadata lock`。通过对processlist、select、rename和sleep请求的检查,发现无明显线索。进一步分析发现,一个多小时之前存在未提交的事务,这些事务的session处于sleep状态。与开发人员沟通后,kill掉这些事务,数据库复制立即恢复正常。
381

被折叠的 条评论
为什么被折叠?



