项目场景:
spark运行中,job一直在执行中,运行过程中会有hdfs, db的交互
问题描述:
有个同学跟我反映问题,spark运行中,job一直在执行中,executor,driver都在跑,没有任何异常, 正常是很快跑完,但跑10min都动不动,很奇怪,让我帮忙看看

原因分析:
碰到问题,处理问题思路: 1.先确定driver,executor是否正常,从页面看,是正常 2.看看任务在做什么,看看executor的task在干忙什么,通过executor tab把正常运行任务的task对应executor的stack打出来看看 3.问题发现:如下图:线程是running状态,但有线程锁 4.百度一下查锁的命令,查锁命令如下, 执行一下,发现确实是被其他同学上锁了。。。,问题排查、处理完毕,收工 select * from v$locked_object t1, v$session t2, dba_objects t3 where t1.session_id = t2.sid and t1.object_id = t3.object_id order by t2.logon_time;
解决方案:
任务卡住的原因是表被锁,释放锁就行。关键是: 排查问题的思路!!!找出真正的问题,fix!
在Spark运行中遇到一个问题,某个job长时间执行不结束,executor和driver看似正常。通过检查executor的任务堆栈,发现存在线程锁的情况。使用SQL查询锁定的表,确认了表被其他会话锁定。最终,释放表锁解决了问题,强调了排查问题的思路和重要性。
783

被折叠的 条评论
为什么被折叠?



