19、基于数据仓库的现代数据平台架构与应用实践

基于数据仓库的现代数据平台架构与应用实践

1. 数据转换与元数据管理

使用云供应商的原生托管服务进行数据转换时,工具通常会管理和携带元数据。例如,在 Google Cloud 上使用 Data Fusion、视图、物化视图等,Data Catalog 会自动更新并维护数据谱系。若使用 Dataflow 构建转换管道,则需手动更新 Data Catalog。在 AWS 中,爬虫会自动更新 Data Catalog,但自行实现转换时,需调用 Glue API 将数据添加到目录中。

2. 组织架构适配

在许多组织中,业务分析师数量远多于工程师,比例常达 100:1。对于希望构建主要服务于业务分析师的数据和机器学习平台的组织,“中心 - 辐射”架构是理想选择。不过,该架构要求业务分析师具备编写临时 SQL 查询和构建仪表板的能力,可能需要进行相关培训。

在以分析师为优先的系统中,中央数据工程团队和业务部门的职责如下:
| 团队 | 职责 |
| — | — |
| 中央数据工程团队 | 1. 将各种来源的原始数据导入数据仓库(DWH),许多数据源可直接配置发布到现代 DWH。
2. 确保数据治理,包括语义层和个人身份信息(PII)保护。
3. 处理跨业务部门的工作负载(如激活)、涉及跨业务部门的数据(如身份解析)或需要专业工程技能的任务(如机器学习)。
4. 管理通用工件存储库,如数据目录、源代码库、密钥存储、特征存储和模型注册表。 |
| 业务部门 | 1. 将特定业务来源的数据导入 DWH。
2. 将原始数据转换为适合下游分析的形式。
3. 用特定业务工件填充治理目录和工

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值