1、java.lang.OutOfMemoryError: GC overhead limit exceeded
原因:数据量太大,内存不够
解决方案:(1)增大spark.executor.memory的值,减小spark.executor.cores
(2)减少输入数据量,将原来的数据量分几次任务完成,每次读取其中一部分
2、ERROR An error occurred while trying to connect to the Java server (127.0.0.1:57439) Connection refused
原因:(1)节点上运行的container多,每个任务shuffle write到磁盘的量大,导致磁盘满,节点重启
(2)节点其他服务多,抢占内存资源,NodeManager处于假死状态
解决方案:(1)确保节点没有过多其他服务进程
(2)扩大磁盘容量
(3)降低内存可分配量,比如为总内存的90%,可分配内存少了,并发任务数就少了,出现问题概率降低
(4)增大NodeManager的堆内存
3、org.apache.spark.shuffle.FetchFailedException: Failed to connect to /9.4.36.40:7337
背景:shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;
shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。
spark异常错误总结
最新推荐文章于 2024-08-02 10:15:22 发布

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



