4、元数据目录服务与搜索服务:实现模式与关键要点

元数据目录服务与搜索服务:实现模式与关键要点

在大数据时代,数据的有效管理和利用对于获取有价值的洞察至关重要。元数据目录服务和搜索服务在其中扮演着关键角色,下面将详细介绍它们的实现模式、面临的挑战以及相关要求。

元数据目录服务的自动化级别与实现模式

元数据目录服务有三个自动化级别,对应不同的任务组合,旨在解决当前手动或低效的任务。这三个模式分别是:
1. 特定源连接器模式(Source - Specific Connectors Pattern) :简化与不同数据源的连接,并提取与数据相关的元数据信息。
2. 血缘关联模式(Lineage Correlation Pattern) :自动提取关联源表和目标表的转换血缘关系。
3. 团队知识模式(Team Knowledge Pattern) :简化业务上下文的聚合,并促进数据用户之间的知识共享。

常见的开源实现包括FINRA的Herd、Uber的Databook、LinkedIn的WhereHows和DataHub、Netflix的Metacat、Apache的Atlas项目以及AWS Glue等云服务。

特定源连接器模式

该模式从数据源提取元数据以聚合技术元数据,使用基于URN的命名来识别数据集,包含两个构建块:
- 自定义提取器(Custom extractors) :使用特定源连接器连接并持续获取元数据。提取器需要适当的访问权限来授权连接到RDBMS、Hive、GitHub等数据存储的凭据。对于结构化和半

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值