spark异常错误总结

最新推荐文章于 2024-08-02 10:15:22 发布

原创

最新推荐文章于 2024-08-02 10:15:22 发布 · 5.8k 阅读

15 ·

CC 4.0 BY-SA版权

1、java.lang.OutOfMemoryError: GC overhead limit exceeded
原因：数据量太大，内存不够
解决方案：(1)增大spark.executor.memory的值，减小spark.executor.cores
         (2)减少输入数据量，将原来的数据量分几次任务完成，每次读取其中一部分

2、ERROR An error occurred while trying to connect to the Java server (127.0.0.1:57439) Connection refused
原因：(1)节点上运行的container多，每个任务shuffle write到磁盘的量大，导致磁盘满，节点重启
     (2)节点其他服务多，抢占内存资源，NodeManager处于假死状态
解决方案：(1)确保节点没有过多其他服务进程
         (2)扩大磁盘容量
         (3)降低内存可分配量，比如为总内存的90%，可分配内存少了，并发任务数就少了，出现问题概率降低
         (4)增大NodeManager的堆内存

3、org.apache.spark.shuffle.FetchFailedException: Failed to connect to /9.4.36.40:7337
背景：shuffle过程包括shuffle read和shuffle write两个过程。对于spark on yarn，shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程；
     shuffle read是container请求external shuffle服务获取数据过程，external shuffle是NodeManager进程中的一个服务，默认端口是7337，或者通过spark.shuffle.service.port指定。