BlockToken原理剖析

最新推荐文章于 2022-05-12 00:27:16 发布

原创最新推荐文章于 2022-05-12 00:27:16 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #java #大数据 #数据库 #人工智能

hdfs 专栏收录该内容

36 篇文章

订阅专栏

本文深入探讨了Hadoop中BlockToken的原理和实现，它用于认证HDFS的数据读写请求。BlockToken通过HMAC算法确保消息完整性和来源合法性，涉及NN、DN和客户端的角色交互。NN生成并分发BlockToken，DN在接收数据请求时进行校验。BlockToken的生命周期管理解决了key同步和过期问题，确保HA和联邦模式下的安全性。性能方面，虽然计算HMAC会增加一定开销，但在大数据读写场景下影响较小。

【简介】

Hadoop安全需要解决两个问题：一个是认证，即解决用户身份合法性验证问题；另一个是授权，即解决认证用户的操作范围问题。

对于认证，Hadoop设计了Security特性和BlockToken方案；对于授权，设计了ACL机制。

本文重点讲述BlockToken相关的知识原理。

【BlockToken流程概述】

BlockToken方案使用HMAC（Hash Message Authentication Code）技术实现对合法请求的访问认证检查。

HMAC算法流程为：

1. 消息传递前，Alice和Bob约定共享密钥和HASH函数

2. Alice把要发送的消息使用共享密钥计算出HMAC值，然后将消息和HMAC发送给Bob

3. Bob接收到消息和HMAC值后，使用共享密钥独立计算消息本身的HMAC值，与接受到的HMAC值对比。

4. 如果二者的HMAC值相同，说明接收到的消息是完整的，并且是Alice发送的。

对于HDFS而言，NN就相当于上面的Alice，DN就相当于上面的Bob，而客户端在其中扮演数据中转的角色，具体流程为：

1. NN启动后进行初始化，生成共享密钥（下面都称为key）

2. DN在向NN注册时，NN将key信息同步给DN。

3. 客户端在进行文件读写时，需要先向NN请求获取block的信息，NN在处理请求时，生成对应的BlockToken，其中包含了通过key计算出的HMAC值。

4. 接下来，client继续向DN建立连接并进行实际block数据的读写请求，读写请求中会携带从NN中获取的BlockToken。

5. DN进行处理block读写请求前，对BlockToken进行校验，具体包括从BlockToken中获取用户、blockpoolid、blockID、以及访问权限，然后与实际请求的用户、读写的blockID、访问动作进行对比看是否相符；然后根据从NN获取的key计算出HMAC，并与传递过来的HMAC比较是否相等。

【BlockToken的相关实现】

从代码实现的流程来看，最关键的一个数据结构是LocatedBlock类，该类的成员除了包含block的相关信息（blockID、时间戳、副本信息等）、在文件中的偏移量、副本存储的位置（DN）信息外，还包含关键的BlockToken信息。

具体类代码如下所示：

Token类的代码如下所示：

kind为token的类型，对于BlockToken为常量"HDFS_BLOCK_TOKEN"；
service用来表述请求的服务，通常为服务的"host:port"，对于BlockToken则为空；
TokenRenewer是客户端生命周期内的renewer，防止token过期而进行的定期更新，对于BlockToken一般不设置，即BlockToken只在固定有效期内生效。
identifier是BlockTokenIdentifier的序列化结果。
password则是使用key通过MAC算法对identifier计算得到的密码（对应于HMAC）

BlockTokenIdentifier类信息如下代码所示：