记录排错历程
问题简介:根据尚硅谷数仓4.0学习集群运行了一段时间,可以正常使用spark运行,出现阶段运行情况的红色框,但是不知道为什么突然有一次,返回30041code,无法运行创建spark session。
第一种情况:多尝试运行几次
刚开始是觉得集群内存不足,因为我的集群三台机器都是再虚拟机上的,整个电脑16G内存,每个hadoop10x分配4G左右,所以内存不足无法运行,当然这只是第一感觉,并没有查看日志证实。
通过xcall free -h查看集群内存的运行情况,发现无法运行任务的时候,hadoop102内存使用了一些,注意这时候swap并没有用很多
--------- hadoop102 ----------
total used free shared buff/cache available
Mem: 5.8G 4.8G 137M 98M 944M 633M
Swap: 4.0G 2.5M 4.0G
--------- hadoop103 ----------
total used free shared buff/cache available
Mem: 5.8G 3.9G 356M 89M 1.6G 1.5G
Swap: 4.0G 0B 4.0G
--------- hadoop104 ----------
total used free shared buff/cache available
Mem: 5.8G 3.6G 641M 67M 1.6G 1.8G
Swap: 4.0G 0B 4.0G
我反复运行几次插入语句,集群成功运行了。再去查看free -h,swap内存用了1个G,其他机器内存也用了好多。
--------- hadoop102 ----------
total used free shared buff/cache availabl