死锁问题出现
某天下午突然接到报警说是出现了死锁,当时的日志是这样的
问题排查
我们先来回顾一下死锁出现的条件
1、循环等待
2、互斥
此时看了下发布记录最近并没有什么功能上线,首先排除是上线代码质量问题引起的死锁。
之后查看当时日志定位死锁发生在业务线同步请求的后处理环节,后处理环节涉及到该张表操作的一共有三个环节:同步请求环节,合作方通知结果环节,定时任务查询合作方环节。
同步请求为串行执行并且没有开启异步操作这张表,定时任务会在同步请求入表之的一分钟后去扫描这张表,如果这张表中的记录没有到达终态便会拿到条记录的流水去查询合作方的结果,通知环节是由合作方触发
经查看日志发现这条请求完成的时间一共是5秒左右,此时不会触发定时,那么可以判定该死所发生的原因就是合作方与同步任务同时更新该条记录引起的死锁 。
接下来使用命令 show engine innodb status 查看当时死锁的信息,主要内容如下
(1)
SELECT
id, user