【yarn】任务日志丢失问题分析
故事背景
今天中午收到了一个报警邮件通知。内容大致为:有一个正在 yarn
上运行的flink
的实时任务挂掉了。
针对上述的现象,我们的开发工程师先打开yarn
的web ui
找到对应的job
的任务页面。查询任务日志。
点击这个log
,找不到任何日志。那么很显然,这个任务的container
已经没了,日志已经找不到了。
引出问题:日志怎么会消失?
探究过程
- 通过上图的
Finished
这一栏可以看到,这个任务在什么时候结束运行的,从上图得知,这个任务是在Wed Nov 16 12:58:09 +0800 2022
挂掉的。 - 记录最下面
Node
栏对应的机器ip
(在上面的图片中我打码了,这个机器是yarn
的一个node
节点,请根据自己的环境来分析) - 在做好上述两点的基础上,先找到这台
Node
节点,然后检查该节点的NodeManager
的日志,目前我用的环境是cdh
,所以我可以在cloudera manager
管理界面上查看到对应的NodeManager
的角色日志,找到Finshed
时间对应的日志,日志如下: