工作上由于需要给hive的metastore做逻辑元数据以及支持水平扩展,在waggle-dance的基础上增强了kerberos的功能,上线之后发现运行一天之后,请求失败,报GssException no tgt.
waggle-dance在启动的时候,我调用过了
UserGroupInformation.loginFromKeyTab() 方法, 登录之后,会生成一个全局的loginUser, 后面所有调用UserGroupInformation的地方都会获取到登录过的用户。
登录成功之后,loginUser的subject的privCredcredentials里会有KerberosTicket, 也会有一个KeyTab.
最开始我的疑问是为什么client和跟waggle-dance建立正常的sasl连接,但是waggle-dance却无法跟metastore建立连接呢?
经过服务端debug(可以百度一下,在服务端启动的时候增加一些JVM参数), 确定了client确实是可以跟waggle-dance建立正常的连接的,报错的日志已经是给waggle-dance跟metastore建立sasl连接失败了。而且发现出现异常的时候,loginUser的subject里的privCredients里的KerberosTicket都不见了。
又增加了一个疑问,这些ticket是什么时候被删除的呢??
带着这些问题开始找看案,首先是研究了一下类似具有类似代理功能的服务,看看他们是如何做的,于是研究了HiveServer2, RBF。 猜测应该是有一个后台线程定期的更新这些Ticket.
又或者是因为是有了KeyTab了,是不是不需要定期更新Tgt了,底层sasl会自动的获取?
代码翻了一遍没找到,于是寄托与网络,看看能不能找到类似问题,还是没有找到。
解决问题最有效的方式就是debug,首先看看subject里的Tgt都是什么时候加入进去的
在Subject的add方法处增加断点,最后总结出
Kerb5LoginModule在登录成功之后,commit的时候回把KeyTab

本文探讨了在Hadoop中遇到的Kerberos TGT过期问题,分析了Kerberos登录、SASL连接过程,解释了HiveServer2和RBF如何处理TGT更新,并通过分析源码揭示了服务端与客户端在SASL连接中的不同角色。通过深入理解,解决了服务端与metastore建立连接失败的故障。
最低0.47元/天 解锁文章
107

被折叠的 条评论
为什么被折叠?



