Hadoop 数据安全保障全解析
1. 数据分类
数据可基于其元素的敏感性以及数据合规性要求,分为不同类别。对特定数据集进行分类,有助于确定如何在 Hadoop 集群内外传输数据、如何在集群存储时限制数据访问,以及如何在处理过程中保护数据。具体分类如下:
- 公开数据 :这类信息是公开可用的,无需限制访问。例如,存储在 Hadoop 集群中以实现更快数据处理的互联网上的世界不同城市的信息。
- 受限或私有数据 :不应公开的信息。此类数据可能不包含敏感元素,但由于能为公司带来竞争优势,应保持私有。例如,公司从外部购买的数据集。对受限或私有数据的访问应受到限制。
- 机密数据 :包含应保密元素的数据集。例如,包含个人身份信息(PII)(如电子邮件地址、电话号码等)的数据集。对此类数据集的访问可能会受到限制,敏感数据元素可能需要加密或屏蔽。
- 受限数据 :除了经过批准的用户集之外,任何人都不应读取的数据。包含客户财务信息或健康记录的数据集属于此类。对此类数据集的访问应严格限制,并且元素可能需要加密,以便只有拥有密钥的批准用户才能读取数据。
2. 敏感数据发现
在某些情况下,用户在 HDFS 中存储数据时未进行适当的分类或访问限制。管理员必须审查与数据关联的模式,以确定适当的分类。在某些情况下,模式可能不包含足够的信息来准确分类数据。此时,唯一的选择是扫描数据,查看是否包含敏感元素。
有一些工具可用于扫描敏感元素,这些工具使用 YARN 框架运行应用程序,扫描数据并报告是否存在敏感元
超级会员免费看
订阅专栏 解锁全文
298

被折叠的 条评论
为什么被折叠?



