简谈对于数仓的划分与理解
内容
数据仓库其实有很多名称,有人称作数仓、有人称作数据湖、有人称作数据池,我理解的本质是各个系统、各个数据源的数据汇总到一起,经过抽取、清洗、整理、沉淀几个步骤后形成的符合于用户标准的数据集。数据仓库主要用于我们进行智能决策、数据呈现、数据共享等场景的数据源。
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。
在数据治理过程中,数仓的构建我认为可合并为数据来源层,通常初步过来在ODS层,这期间通过ETL等一系列技术进行实现。再使用一系列清洗、整合工具算法进行最终整合为我们具体可用的沉淀数据,存储在DW层,即数据仓库。而基于数据仓库清洗后形成的有效的、可被理解的这类数据通常存储至DM层,即数据集市。数据集市和数据仓库都可以为我们的终端产品赋能,提供数据支撑。
本文参考:DB、DW、DM、ODS、OLAP、OLTP和BI的概念理解
本文声明:
88x31.png
本作品由 cn華少 采用 知识共享署名-非商业性使用 4.0 国际许可协议 进行许可。
数据仓库(数仓)是各类系统数据汇集并经过抽取、清洗和整合后的数据集合,常用于智能决策、数据呈现和共享。数据治理中,数仓包括ODS层(原始数据)、DW层(数据仓库)和DM层(数据集市)。ODS层存储初步抽取的数据,DW层进行深度清洗和整合,DM层则提供给终端应用使用。数据仓库和数据集市都是数据驱动业务的重要支撑。
3216

被折叠的 条评论
为什么被折叠?



