ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析（三）

最新推荐文章于 2025-09-25 02:37:53 发布

原创

最新推荐文章于 2025-09-25 02:37:53 发布 · 1.4k 阅读

3 ·

CC 4.0 BY-SA版权

阿里云协同办公工具Teambition 0元试用>>>

这个问题又让我们碰到了，发生次数不频繁但是一旦发生就会造成ResourceManager服务崩溃、ZK注册watch过多等问题。不彻底解决这个问题心中一直是个梗，所以基于前两次的分析和阅读社区最新版Hadoop 3.2.1代码之后，给生产环境YARN打patch最终解决这个问题。对于疑难问题，每遇到一次就有一次不同的感悟，接下来是我本次分析和解决该问题的过程记录。前两次解决和分析该问题的记录如下：

环境

Hadoop版本：Apache Hadoop 2.6.3
ZooKeeper版本：ZooKeeper 3.4.10
两个ResourceManager节点：主节点RM01，从节点RM02

问题原因

这个问题很难复现，前两次一直没找到产生该问题的原因，打了patch之后，我们在日志中发现，产生该问题主要是由于部分异常任务导致的，日志如下：

2020-04-28 10:05:54 INFO  org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore:768 - Application update attemptState data size for /rmstore/ZKRMStateRoot/RMAppRoot/application_1587969707206_16259/appattempt_1587969707206_16259_000001 is 20266528. Exceed the maximum allowed 3145728 size. ApplicationAttemptState info: ApplicationAttemptState{attemptId=appattempt_1587969707206_16259_000001, diagnostics='User class threw exception: java.lang.RuntimeException: org.apache.spark.SparkException: Job aborted due to stage failure: Task 15 in stage 2.0 failed 4 times, most recent failure: Lost task 15.3 in stage 2.0 (TID 4224, datanode44.bi): java.util.concurrent.ExecutionException: java.lang.Exception: failed to compile: org.codehaus.janino.JaninoRuntimeException: Code of method "(Lorg/apache/spark/sql/catalyst/expressions/GeneratedClass$SpecificUnsafeProjection;Lorg/apache/spark/sql/catalyst/InternalRow;)V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificUnsafeProjection" grows beyond 64 KB
/* 001 */ public java.lang.Object generate(Object[] references) {
/* 002 */   return new SpecificUnsafeProjection(references);
/* 003 */ }
/* 004 */
/* 005 */ class SpecificUnsafeProjection extends org.apache.spark.sql.catalyst.expressions.UnsafeProjection {
/* 006 */
/* 007 */   private Object[] references;
/* 008 */   private scala.collection.immutable.Set hset;
/* 009 */   private boolean hasNull;
/* 010 */   private UnsafeRow result;
/* 011 */   private org.apache.spark.sql.catalyst.expressions.codegen.BufferHolder holder;
/* 012 */   private org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter rowWriter;

当任务出现异常时，YARN会保存任务的异常信息，当异常信息很多时，YARN往ZK保存任务状态的数据量就会超过ZK的限制。从日志中可以看出，出现异常的Spark任务状态数据是20266528字节，也就是19MB，远远超过了我们所设置的3MB。在YARN监控界面上可以看到该任务的异常信息有20万行：

最低0.47元/天解锁文章