大数据时代的数据仓库:融合与变革
1. 数据仓库的起源与演变
数据仓库的概念起源于近30年前,旨在为拥有众多孤立运营系统的客户解决重大问题。当时,管理层希望用更高效的决策支持系统取代低效的系统,企业渴望拥有单一的架构模型,以便更轻松地做出商业决策。无论是完整的数据仓库还是规模较小的数据集市,这种方式都已成为常态。
随着大数据的出现,数据仓库的概念正在发生变化,以适应新的用例。传统数据仓库将继续存在并蓬勃发展,因为它在分析历史运营数据以进行决策方面非常有用。然而,新型数据仓库将针对大数据世界进行优化。
2. 传统数据仓库的特点
Bill Inmon被认为是现代数据仓库之父,他确立了数据仓库的一系列原则,包括:
- 面向主题 :数据仓库应围绕特定主题组织,如客户、产品等。
- 关联性 :相关事件应相互关联,以便更好地分析。
- 非易失性 :信息不应被意外更改,确保数据的稳定性。
- 完整性 :仓库中的信息应包含所有适用的运营源,并以一致的定义和最新值进行存储。
3. 数据仓库的优化与挑战
传统数据仓库主要支持结构化数据,并与企业的运营和交易系统紧密相连。随着组织试图扩展和修改数据仓库以适应大数据时代,这些精心构建的系统正面临重大变革。虽然大数据和数据仓库会有交集,但短期内不太可能合并。
可以将传统数据仓库视为商业智能的记录系统,类似于客户关系管理(CRM)系统或会计系统。这些系统高度结构化,针对特定目的进行了
超级会员免费看
订阅专栏 解锁全文
993

被折叠的 条评论
为什么被折叠?



