Lock-Wait 一般是当前需要处理的脚本在等待执行并且超过一定的等待时间出的告警,根据以往经验出现这种现象一般有下面几种场景:
1.需要操作的表被锁定(如在做Upaate操作),导致当前语句不能执行; -- 比较常见
2.前面执行的语句效率过低,可能Select一个没有索引的大数据表,导致后面脚本不能被执行; -- 比较常见
3.同一个表被不同线程同时在更新,引起死锁。
出现告警我们需要对语句进行简单分析(GE_开头是网销的表、ES_开头是网服的表),如果属于前面两类则后续程序需要做优化,如果是第3类则需要立即通知管理员处理,否则会引起线程柱塞中间件Down机。一般如果收到的邮件不算太多,一般都属于1、2这两类,如果短时间内(10分钟)收到几百上千则必须要求管理员检查是否有死锁。
另,目前网销批处理作业是根据GE_FINAL_STATUS表进行控制,而且不同线程是根据同一条记录不同字段的标记进行判断及更新操作,这种机制会出现不同线程对同一行数据进行更新的场景,但业务量大时容易出现上面第3种问题,后续有时间建议优化一下。