hdfs 多租户_大数据平台多租户管理实现(理论篇)

本文探讨了Hadoop大数据平台的多租户管理,包括认证、数据库管理、资源管理和系统接入管理。介绍了使用Kerberos进行认证,通过Ranger或Sentry实现HDFS的权限控制,利用YARN和CGroups进行资源隔离与调度,以及通过堡垒机实现系统接入的安全管理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随着数据量的指数型增长,以及Hadoop生态系统的不断完善,越来越多的公司选择Hadoop作为数据仓库,并在大数据集群上架设了越来越多的相对复杂的应用场景需求。在公司内部,多用户业务应用架设在同一个Hadoop集群上,容易出现数据与集群资源混乱无序的状态,需要建立统一的调度平台实现数据统一管理、任务合理化调度,集群资源按需分配;

从集群使用角度延申,Hadoop大数据平台多租户管理实现在以下几点实现:

一、集群使用认证:

不能随便某个用户就可以直接登录大数据平台,必须有一个开关,将大数据开发平台整体隔绝。目前绝大部分公司使用Kerberos组件进行认证管理。

大致的做法为,大数据平台设置某公共堡垒机(大业务应用系统可以使用专用堡垒机),多租户登陆堡垒机后,通过Kerberos认证成功后,才能使用大数据平台,并且设置失效时间。Kerberos可以将认证的密钥在集群部署时事先放到可靠的节点上。集群运行时,集群内的节点使用密钥得到认证。只有被认证过节点才能正常使用。企图冒充的节点由于没有事先得到的密钥信息,无法与集群内部的节点通信。

二、数据库管理

多租户模式下,数据安全是最重要的问题,集群需要将不同用户的数据统一管理运维,对不同的数据进行权限隔离。Hadoop集群数据存储主要依赖HDFS,主要从以下几个方面进行多租户下数据层的管理:

(1)首先内部应制定并严格遵守hadoop集群数据存放管理规则。

示例一存放规则:第一级别目录:(公共资源、不同用户)

第二级别目录:(数据类型)

第三级别目录:(时间)

规则的指定需要严加执行。

同时为了保证对各用户独立数据资源量的可控,需要对其设置数据存储的上线(50%三级;75%二级;90%一级)可在集群监控中进行每日调度监控。

(2)目录权限控制:

在数据资产价值日益凸显,以及数据安全日益重要的情况下,应严格控制数据获取权限,特别在某些金融行业,客户的隐私尤为重

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值