构建自助服务数据平台:从概念到实践
1. 背景与问题提出
数据消费者借助 DataHub 的高级功能,新的工作流程变得高效,减少了对数据团队的依赖。此时,需要从数据生产者的角度出发,让他们的工作更轻松。目前,Yellow 和 Green 团队对现有的自助服务平台比较满意,但机器学习工程师向负责“广告”功能的 Grey 团队请求数据以优化广告活动。Grey 团队不喜欢将 CSV 文件推送到存储库,他们更倾向于使用 Postgres 数据库,因为其数据产品规模大且包含多个数据集。数据平台团队需要找到一种合适的方法来满足这一需求。
2. 平台架构解析
平台架构通常包含三个组件:
- 互补者或参与者 :如城镇广场上的买家和农民,是平台的参与者。
- 平台接口 :城镇广场(地点)和固定时间共同构成平台接口,是买家和农民更轻松交互所需的一切。在数据平台中,接口可能包括使用平台的实践和流程,如用于上传 CSV 文件的中央 Git 存储库。平台接口应尽量保持固定,以确保平台的最大活跃度。例如,改变市场的日期会导致混乱。
- 平台内核 :城镇广场上及其周围的一切,包括相关流程,如收费等,为参与者提供价值,如为农民提供水龙头和电力,为游客提供美观的装饰。平台内核会不断变化,以优化平台对参与者的价值,如优化定价、提供帐篷、升级电源等。
在数据平台中,JSON 映射到 DataHub 而不直接让用户使用 DataHub,是因为 JSON 是平台接口的一部分,不能随意更改。如果更改平台接口的一部分,会导致平台价值严重下降。例如,不再使用 G
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



