数据架构:从数据仓库到数据湖
1. 数据架构的背景与需求
在当今数字化时代,企业面临着海量数据的收集、存储和分析需求。以厨房电器公司为例,带有多个传感器的厨房电器成为连接设备,通过新开发的应用程序收集用户数据,以提供食谱和饮食建议等服务。这些传感器会收集大量数据,公司需要对这些数据进行分析,并通过应用程序向用户提供数据。同时,新数据还需要与网站、客户、销售、人力资源、采购、营销等现有数据进行整合。这就要求设计和实施全面的数据架构,以支持公司的业务目标。
在考虑数据架构时,需要回答以下几个关键问题:
- 应该收集哪些数据?
- 哪些数据应该/可以存储,存储多长时间?
- 谁应该有权访问哪些数据?
2. 流行的数据架构蓝图
数据架构领域非常广泛,涉及许多概念。这里主要介绍两种被许多公司采用的架构蓝图:数据仓库(DWH)和数据湖。
2.1 数据仓库(DWH)
数据仓库是一种集中式数据存储系统,旨在集成公司范围内的数据。它是面向主题、集成、随时间变化且非易失性的数据集合。通过提供公司数据的综合视图,其目标是支持管理层的决策过程。
数据仓库的特点如下:
|特点|描述|
| ---- | ---- |
|集成性|集成来自组织内(甚至组织外)多个数据源的数据|
|面向主题|为用户提供特定主题领域的视图,例如“销售”,并允许他们进行分析|
|时间变化性|永久存储历史数据,与仅临时存储最新记录的事务系统形成对比|
|非易失性|存储历史数据以描绘发生的情况,而不是改变该情况。因此,一旦数据存储在数据仓库中,通常不会更改| <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



