版本:quartz 2.2.3
环境:2台linux机器搭建集群
问题现象:1个10s循环执行的job,每隔10s会同时在2台机器进行调度执行。
查看源码:
triggers = qsRsrcs.getJobStore().acquireNextTriggers(
now + idleWaitTime, Math.min(availThreadCount, qsRsrcs.getMaxBatchSize()), qsRsrcs.getBatchTimeWindow());
其中idleWaitTime定义为30*1000ms,即查询30s内要被调度的状态为waiting的triggers,在查询前都会先获得trigger_access锁,修改状态为acquired。然后循环等待到nextfiretime,到时间执行firedtrigger改状态为executing,然后triggers再回到waiting状态。
在集群机器时间不一致,job执行时间很快时,时间快的机器1执行完后,状态恢复了,时间慢的机器2会再次获得trigger执行。最终支持并发执行的job会插入多条firedtrigger记录,导致执行多次。时间同步后,机器2获得trigger就会遇到锁和trigger状态不为waiting,无法fired。
解决方案:
配置服务器时间同步: ntp服务
本文探讨了Quartz 2.2.3集群环境下,由于时间不一致导致job重复执行的问题。作者分享了问题现象、分析过程,以及通过配置服务器时间同步(如NTP)来解决此问题的方法。解决思路不依赖外部锁,而是优化 Quartz 内部触发器管理。
https://blog.youkuaiyun.com/crackwl/article/details/79626192
1449

被折叠的 条评论
为什么被折叠?



