集群主备切换后任务未能在新的主节点上自动重启

YARN主备切换任务重启解决方案

最新推荐文章于 2024-08-08 12:43:14 发布

原创最新推荐文章于 2024-08-08 12:43:14 发布 · 358 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #HA #主备切换 #任务失败 #yarn

spark 专栏收录该内容

7 篇文章

订阅专栏

本文描述了在YARN集群中，主备切换后原任务无法自动重启的问题，并提供了解决方案。通过在yarn-site.xml中配置资源管理器恢复状态及持久化存储类，确保了任务在主备切换后的连续运行。

问题描述：

在集群运行过程中发现一旦主备切换后，原来正常运行的任务在新的主节点上不能自动从启

解决方法：

在yarn-site.xml中增加以下配置项：

<property>
    <description>Enable RM to recover state after starting. If true, then yarn.resourcemanager.store.class must be specified</description>
    <name>yarn.resourcemanager.recovery.enabled</name>
    <value>true</value>
 </property>

 <property>
    <description>The class to use as the persistent store.</description>
    <name>yarn.resourcemanager.store.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
 </property>