基于数据仓库的现代数据平台架构与应用实践
1. 数据转换与元数据管理
使用云供应商的原生托管服务进行数据转换时,工具通常会管理和携带元数据。例如,在 Google Cloud 上使用 Data Fusion、视图、物化视图等,Data Catalog 会自动更新并维护数据谱系。若使用 Dataflow 构建转换管道,则需手动更新 Data Catalog。在 AWS 中,爬虫会自动更新 Data Catalog,但自行实现转换时,需调用 Glue API 将数据添加到目录中。
2. 组织架构适配
在许多组织中,业务分析师数量远多于工程师,比例常达 100:1。对于希望构建主要服务于业务分析师的数据和机器学习平台的组织,“中心 - 辐射”架构是理想选择。不过,该架构要求业务分析师具备编写临时 SQL 查询和构建仪表板的能力,可能需要进行相关培训。
在以分析师为优先的系统中,中央数据工程团队和业务部门的职责如下:
| 团队 | 职责 |
| — | — |
| 中央数据工程团队 | 1. 将各种来源的原始数据导入数据仓库(DWH),许多数据源可直接配置发布到现代 DWH。
2. 确保数据治理,包括语义层和个人身份信息(PII)保护。
3. 处理跨业务部门的工作负载(如激活)、涉及跨业务部门的数据(如身份解析)或需要专业工程技能的任务(如机器学习)。
4. 管理通用工件存储库,如数据目录、源代码库、密钥存储、特征存储和模型注册表。 |
| 业务部门 | 1. 将特定业务来源的数据导入 DWH。
2. 将原始数据转换为适合下游分析的形式。
3. 用特定业务工件填充治理目录和工
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



