“数据仓库”这个词在数据分析领域被广泛使用,但对于刚接触数据分析的人来说,仍然会很经常问到这个问题。本文将对数据仓库的定义做一番解释,并说明为什么以及什么时候需要考虑建立一个数据仓库。
01
什么是数据仓库?
数据仓库是一种分析数据库,用于存储和处理数据,以便对数据进行分析。数据仓库的两个主要功能:存储分析数据和处理分析数据。
-
首先,如果多个业务数据位于不同的数据源,就无法轻易地将它们组合在一起。
-
其次,你的数据源系统不适合用来运行大量的数据分析,这样做可能会危及业务运行,因为它会给系统带来很重的负载。
数据仓库是分析管道的核心,它有三个主要作用:
-
存储:在合并 (提取和加载) 步骤,数据仓库将接收和存储来自多个数据源的数据。
-
处理:在处理 (转换和建模) 步骤,数据仓库将处理大部分 (或全部) 由转换步骤生成的密集处理工作负载。
-
访问:在生成报告 (可视化和交付) 步骤,首先需要在数据仓库中收集报告,然后将其可视化并交付给最终用户。
目前,大多数数据仓库使用 SQL 作为主要的查询语言。
02
什么时候需要构建数据仓库?
简单地说,这取决于公司所处的阶段、所拥有的数据量和预算,等等。
在早期阶段,你可能不需要数据仓库,而是直接使用业务智能 (BI) 工具连接到生产