随着数据量的指数型增长,以及Hadoop生态系统的不断完善,越来越多的公司选择Hadoop作为数据仓库,并在大数据集群上架设了越来越多的相对复杂的应用场景需求。在公司内部,多用户业务应用架设在同一个Hadoop集群上,容易出现数据与集群资源混乱无序的状态,需要建立统一的调度平台实现数据统一管理、任务合理化调度,集群资源按需分配;
从集群使用角度延申,Hadoop大数据平台多租户管理实现在以下几点实现:
一、集群使用认证:
不能随便某个用户就可以直接登录大数据平台,必须有一个开关,将大数据开发平台整体隔绝。目前绝大部分公司使用Kerberos组件进行认证管理。
大致的做法为,大数据平台设置某公共堡垒机(大业务应用系统可以使用专用堡垒机),多租户登陆堡垒机后,通过Kerberos认证成功后,才能使用大数据平台,并且设置失效时间。Kerberos可以将认证的密钥在集群部署时事先放到可靠的节点上。集群运行时,集群内的节点使用密钥得到认证。只有被认证过节点才能正常使用。企图冒充的节点由于没有事先得到的密钥信息,无法与集群内部的节点通信。
二、数据库管理
多租户模式下,数据安全是最重要的问题,集群需要将不同用户的数据统一管理运维,对不同的数据进行权限隔离。Hadoop集群数据存储主要依赖HDFS,主要从以下几个方面进行多租户下数据层的管理:
(1)首先内部应制定并严格遵守hadoop集群数据存放管理规则。
示例一存放规则:第一级别目录:(公共资源、不同用户)
第二级别目录:(数据类型)
第三级别目录:(时间)
规则的指定需要严加执行。
同时为了保证对各用户独立数据资源量的可控,需要对其设置数据存储的上线(50%三级;75%二级;90%一级)可在集群监控中进行每日调度监控。
(2)目录权限控制:
在数据资产价值日益凸显,以及数据安全日益重要的情况下,应严格控制数据获取权限,特别在某些金融行业,客户的隐私尤为重