数据湖与数据科学思维:解锁商业洞察的新路径
一、数据湖的能力与架构
数据湖具备多种强大能力,包括利用分析功能(应用开发)、支持第三方平台应用(如移动应用开发、网站应用开发)、将分析作为服务暴露给应用程序(API),以及将内存和/或数据库内评分与推荐集成到业务流程和运营系统中。“中心辐射式”分析架构使数据科学团队能够开发预测性和规范性分析,以优化关键业务流程、提供差异化的客户参与体验并发现新的盈利机会。
二、从数据仓库经验中汲取的教训
2.1 名称并非关键
过去,数据仓库倡导者(与Bill Inmon和企业信息工厂相关)和数据集市倡导者(与Ralph Kimball和星型模式相关)曾就术语和命名展开激烈争论。但历史证明,两种方法都有效。它们都需要具备以下关键能力:
- 捕获大量历史数据,用于分析关键业务实体的绩效并识别数据中的趋势和模式。
- 数据治理程序和政策,确保数据仓库和数据集市中存储的数据100%准确。
- 主数据管理,确保跨业务线的定义、术语和命名一致。
- 能够连接或集成来自不同业务功能的不同数据源的数据。
- 终端用户查询构建(使用SQL和BI工具),支持生成每日、每周、每月和季度报告与仪表板,还支持对数据进行临时切片和切块,以识别绩效过高和过低的领域。
因此,关于是数据湖、数据水库还是运营数据存储的争论并无实际意义,选择一个名称并让其发挥作用即可,数据湖就是一个不错的选择。
2.2 一个数据湖而非多个
拥有多个数据湖会重复多个数据仓库带来的问题,即形成分散的数据孤岛和数据领地,不利于组织内企业数据资产的共享。组织应拥有一个单一
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



