数据治理与虚拟化服务解析
1. 数据治理模式
1.1 标签传播模式
以 Apache Atlas 为例,分类传播可使与数据实体(如表)关联的分类基于数据谱系自动关联到其他相关实体。例如,若一个表被分类为 PII 标签,那么从该表派生数据的所有表或视图也将自动被分类为 PII。此分类传播由用户的策略控制。
1.2 数据湖删除模式
此模式专注于删除数据湖中与客户相关的数据。为满足合规要求,客户删除请求需确保从原始和派生数据集以及数据湖中的所有数据副本中删除数据。其流程如下:
1. 收到客户删除请求时,在事务源中进行软删除。
2. 在摄取过程中,删除与客户相关的记录。由于数据格式的不可变性,删除操作会导致大量写入操作(即读取所有记录并重新写入)。删除记录也会发送给第三方处理器。
3. 对于历史分区,删除操作作为批量异步过程处理。多个客户的删除记录会在单独的表中跟踪,并在批量操作中进行批量删除,同时确保合规 SLA。
以 Apache Gobblin 为例,它跟踪与数据关联的 Hive 分区。在从事务源表摄取数据时,若需要清除客户数据,则在摄取管道的合并过程中删除相应记录,这也适用于流处理。通过 API 可触发清理数据湖中的历史数据记录,如在开源 Delta Lake 项目中,使用 vacuum 命令可从历史记录中删除记录。
1.3 第三方处理器管理
OpenDSR 规范为数据控制者和处理器定义了一种通用方法,用于构建可互操作的系统,以跟踪和满足数据请求。该规范提供了定义良好的 JSON 规范,支持擦除、访问和可移植性等请求类型,还提供了对请求收据的强加密验证,以提供
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



