1.现象场景:在spark执行程序中会看到很多的failed但是过程能正常执行完
查看如下:ExecutorLostFailure (executor 11 exited caused by one of the running tasks) Reason: Executor heartbeat timed out after 941664 ms
表面现象的问题是直接某个机器由于心跳超时,超过一定时间没有向master发送心跳,导致master认为该机器节点挂掉,然后将任务放到别的机器上计算导致的。实际上引发没有心跳的原因有很多。具体情况具体分析。
1.该台机器任务太多cpu被占用满,导致没有资源发送心跳,这个时候就需要设置一下excutor 的内存和cpu的占用以及shul数量,查看一下yarn-site.xml的配置,看一下是否是超出了这台机器资源范围导致了这个问题,
2.该台机器分配的内存过少(堆栈内存)导致频繁gc或者写入磁盘导致时间过长,超过心跳时间导致失败。这时候直接配置
spark.yarn.executor.memoryOverhead 这个参数,增加每一个excutor的内存。或者通过
spark.memory.storageFraction设置堆和栈的比平衡
3.由于计算数据量或者