12、数据治理与虚拟化服务解析

数据治理与虚拟化服务解析

1. 数据治理模式

1.1 标签传播模式

以 Apache Atlas 为例,分类传播可使与数据实体(如表)关联的分类基于数据谱系自动关联到其他相关实体。例如,若一个表被分类为 PII 标签,那么从该表派生数据的所有表或视图也将自动被分类为 PII。此分类传播由用户的策略控制。

1.2 数据湖删除模式

此模式专注于删除数据湖中与客户相关的数据。为满足合规要求,客户删除请求需确保从原始和派生数据集以及数据湖中的所有数据副本中删除数据。其流程如下:
1. 收到客户删除请求时,在事务源中进行软删除。
2. 在摄取过程中,删除与客户相关的记录。由于数据格式的不可变性,删除操作会导致大量写入操作(即读取所有记录并重新写入)。删除记录也会发送给第三方处理器。
3. 对于历史分区,删除操作作为批量异步过程处理。多个客户的删除记录会在单独的表中跟踪,并在批量操作中进行批量删除,同时确保合规 SLA。

以 Apache Gobblin 为例,它跟踪与数据关联的 Hive 分区。在从事务源表摄取数据时,若需要清除客户数据,则在摄取管道的合并过程中删除相应记录,这也适用于流处理。通过 API 可触发清理数据湖中的历史数据记录,如在开源 Delta Lake 项目中,使用 vacuum 命令可从历史记录中删除记录。

1.3 第三方处理器管理

OpenDSR 规范为数据控制者和处理器定义了一种通用方法,用于构建可互操作的系统,以跟踪和满足数据请求。该规范提供了定义良好的 JSON 规范,支持擦除、访问和可移植性等请求类型,还提供了对请求收据的强加密验证,以提供

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值