前言
在企业大规模量级的Hadoop集群中,数据的安全性是十分重要的,尤其当集群存储的是一些敏感数据的时候。Hadoop社区在早期release的版本中,并没有完善好其Security部分的功能。但是随着Hadoop系统的不断完善成熟,Security的功能也在不断的完善。那么问题来了,Hadoop的Security到底指的是什么呢?本文笔者来简单聊聊Hadoop Security的三板斧,了解了这三板斧的内容,我们大致就能明白Hadoop Security到底说的是什么了。
Hadoop Security要解决的问题
首先我们要明确这样几个问题,对于集群数据的安全性,Hadoop Security要解决以下的一些问题:
- 我是谁—我是否是合法的用户去访问集群的数据。
- 我能做什么—我是否有被授权对数据进行操作。
- 我做过什么—我曾经对某些数据文件进行了何种操作。
- 我是否能对数据进行加密。
Hadoop Security主要就是干了上面这4个事情,其中对于第三点“我做过什么”的实现,这个比较容易,通过audit log的方式进行记录即可。这里我们主要来聊聊其它三点。
Hadoop Security三板斧
这里我们来聊聊Hadoop Security的三板斧,三板斧如下图所示:
第一个问题