shuffle file cannot find错误

最新推荐文章于 2024-01-22 16:31:24 发布

转载最新推荐文章于 2024-01-22 16:31:24 发布 · 276 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/qq_41781021/article/details/81133011

随笔专栏收录该内容

17 篇文章

订阅专栏

探讨Spark执行器堆外内存配置，解决大数据处理中常见的内存溢出及shuffle读写问题，介绍如何调整参数以提高任务稳定性。

Executor的堆外内存
Spark底层shuffle的传输方式是使用netty传输，netty在进行网络传输的过程会申请堆外内存（netty是零拷贝），所以使用了堆外内存。默认情况下，这个堆外内存上限默认是每一个executor的内存大小的10%；真正处理大数据的时候，这里都会出现问题，导致spark作业反复崩溃，无法运行；此时就会去调节这个参数，到至少1G（1024M），甚至说2G、4G。
executor在进行shuffle write，优先从自己本地关联的mapOutPutWorker中获取某份数据，如果本地block manager没有的话，那么会通过TransferService，去远程连接其他节点上executor的block manager去获取，尝试建立远程的网络连接，并且去拉取数据。频繁创建对象让JVM堆内存满溢，进行垃圾回收。正好碰到那个exeuctor的JVM在垃圾回收。处于垃圾回过程中，所有的工作线程全部停止；相当于只要一旦进行垃圾回收，spark / executor停止工作，无法提供响应，spark默认的网络连接的超时时长是60s；如果卡住60s都无法建立连接的话，那么这个task就失败了。task失败了就会出现shuffle file cannot find的错误。
那么如何调节等待的时长呢？
在./spark-submit提交任务的脚本里面添加：
–conf spark.core.connection.ack.wait.timeout=300
Executor由于内存不足或者堆外内存不足了，挂掉了，对应的Executor上面的block manager也挂掉了，找不到对应的shuffle map output文件，Reducer端不能够拉取数据。我们可以调节堆外内存的大小，如何调节？
在./spark-submit提交任务的脚本里面添加
yarn下：
–conf spark.yarn.executor.memoryOverhead=2048 单位M
standalone下：
–conf spark.executor.memoryOverhead=2048单位M