记一次HDFS Delegation Token失效问题

本文深入探讨了Kerberos环境下HDFS委托令牌过期问题,特别是在长周期Spark应用中。分析了配置参数的影响,并尝试了多种解决方案,包括调整参数、使用spark-submit参数和配置权限,最终在spark-submit方式下实现了自动续租。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

由于我们团队是最近上的 Kerberos ,免不了会出现一些问题,现阶段还处于踩坑阶段。希望通过我们的填坑的经历,帮助到同样身处坑内的伙伴。我们使用的 Hortonworks-HDP 环境。

HDFS Delegation Token 问题被发现于一个 Long Running 的 Spark 应用。由于发布周期原因,部分应用超过了 7 天的有效期时间,突然在同一时间,爆发出来。当时觉得很诡异,在查看日志之后,还没有往有效时间方面考虑,还以为是环境问题。遇到的错误信息如下:

org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.token.SecretManager$InvalidToken): token (token for dmp: HDFS_DELEGATION_TOKEN owner=dmp, renewer=yarn, realUser=livy/test-dmp7.example.org@TESTDIP.ORG, issueDate=1547640792209, maxDate=1547641392209, sequenceNumber=4439, masterKeyId=172) is expired, current time: 2019-01-16 20:21:06,530+0800 expected renewal time: 2019-01-16 20:16:18,863+0800
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.token.SecretManager$InvalidToken): token (token for dmp: HDFS_DELEGATION_TOKEN owner=dmp, renewer=yarn, realUser=livy/test-dmp7.example.org@TESTDIP.ORG, issueDate=1547640792209, maxDate=1547641392209, sequenceNumber=4439, masterKeyId=172) is expired, current time: 2019-01-16 20:21:06,530+0800 expected renewal time: 2019-01-16 20:16:18,863+0800

无巧不成书,另一个团队在使用我们团队的 HBASE ,因而,他们需要使用 Kerberos 认证,在他们的应用上出现了,如下图错误:

在这里插入图片描述

出现的场景,简单描述一下,不是这篇的重点。应用为 Spring Boot 项目,使用 ZK 方式进行认证,在运行时间大于 1 天 之后就会出现该错误。后来问题定位到 Kerberos 中的认证有效期问题。

缘该问题的出现,联想到是否 HDFS Delegation Token 也是 Kerberos 导致的问题呢。故而团队小伙伴进行了论证,先是修改 KDC 有效时间,为了快速论证,将 ticket_lifetime 和 renew_lifetime 都进行了调小处理,使用 Livy Spengo 方式进行提交 Spark 应用,发现在调小之后的 renew_lifetime 时间范围内,没有出现 HDFS Delegation Token 错误信息,结果与预想的出现了偏差,结合线上的问题现象为 7 天过期结果,猜测是否存在另一种配置项,在影响着。

在一篇 hdfs delegation token 过期问题分析 文章中看到了另一种可能性,Hadoop 自身存在一种轻量级认证方式。故而,在 Hadoop 官网 hdfs-default 找到了如下的配置项:

配置项默认值说明
dfs.namenode.delegation.key.update-interval86400000The update interval for master key for delegation tokens in the namenode in milliseconds.
dfs.namenode.delegation.token.max-lifetime604800000The maximum lifetime in milliseconds for which a delegation token is valid.
dfs.namenode.delegation.token.renew-interval86400000The renewal interval for delegation token in milliseconds.

从默认值看,似乎可以解释现象,一切通过实践出真知。也是通过对这三个参数进行相应的调小操作,结果现象跟猜测的是一致的。所以有理由相信,通过调大上面的这三个参数就可以解决问题。但是,出于安全的考虑,还是希望有不同的解决方案。

如果能在过期的时候,主动进行续租或者重新认证,那应该是最好的解决方法。在 Spark 官网 security 下有一段话是这样的写的:

Long-Running Applications

Long-running applications may run into issues if their run time exceeds the maximum delegation token lifetime configured in services it needs to access.

Spark supports automatically creating new tokens for these applications when running in YARN mode. Kerberos credentials need to be provided to the Spark application via the spark-submit command, using the --principal and --keytab parameters.

The provided keytab will be copied over to the machine running the Application Master via the Hadoop Distributed Cache. For this reason, it’s strongly recommended that both YARN and HDFS be secured with encryption, at least.

The Kerberos login will be periodically renewed using the provided credentials, and new delegation tokens for supported will be created.

--principal, --keytab 这两个参数,在上文中提到,我们团队使用的是 Livy 方式提交应用,而这里是 spark-submit ,Anyway,先进行测试再说,跟官网文档进行实践 spark-submit 方式进行。例子:

./bin/spark-submit \
  --class <main-class> \
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  --conf <key>=<value> \
  --principal <value> \
  --keytab <value> \
  <application-jar> \
  [application-arguments]

还是重重的受到打击,依旧无法自动续租。

在此之后,Google 一番,发现存在 hdfs delegation token 和 Livy 无法正常续租问题大量存在:

也尝试了这些文中所说的方式方法,比如:–conf spark.hadoop.fs.hdfs.impl.disable.cache=true 之类的。尝试了 livy 和 spark-submit 都失败告终。

在发现 Spark踩坑之Streaming在Kerberos的hadoop中renew失败 该文,里面有这样的配置:

<property>
    <name>yarn.resourcemanager.proxy-user-privileges.enabled</name>
    <value>true</value>
</property>
# xml core-site.xml
<property>
    <name>hadoop.proxyuser.yarn.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.yarn.groups</name>
    <value>*</value>
</property>

在与自己的环境的配置做对比之后,发现唯一不同的地方是 hadoop.proxyuser.yarn.hosts 的值,我们的配置是 host 地址,已经是死马当活马医的心态,进行尝试,发现在 spark-submit 方式成功了,但 Livy 方式还是以失败告终。但似乎更加相信 Livy 是可以实现的。

尝试使用在 livy 中添加 --keytab 和 --principal 方式提交,在日志中会有 --proxy-user or --principal 的错误信息。livy spengo 是一种代理的方式进行提交。如若添加 --principal 是不支持的。对应的是 spark.yarn.keytabspark.yarn.principal

同时,也检查了 hadoop.proxyuser.livy.hosts 配置是*。貌似问题是 Livy 方式无法将keytab 信息透传到 Yarn 中。希望有碰到相关问题的伙伴,能进行留言进行相应的讨论,以帮助更多的人。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值