数仓
1. 数仓概念
数据仓库(Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。
数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision support)。
数据的搬运工。
2. 数仓专注分析
数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;
同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用。
3. 数据仓库为何而来,解决什么问题
为了分析数据而来,分析结果给企业决策提供支撑。
4. 业务数据的存储问题
联机事务处理系统(OLTP),执行联机事务处理。基本特征是,前台接收的用户数据,可以立即传送到后台进行处理,并在很短的时间内给出处理结果。
关系型数据库(RDBMS)是OLTP典型应用,如Oracle、MySQL、SQL server等。
5. OLTP环境开展分析可行吗?
可以,但是没必要。
OLTP系统的核心是面向业务,支持业务,支持事务。分为读操作和写操作。一般读的压力明显大于写的压力,如果在OLTP环境直接分析
会让读取压力倍增。
OLTP仅存储数周或数月的数据。
数据分散在不同系统,不同表中,字段类型属性不统一。
6. 数据仓库面世
为了更好的进行各种规模的数据分析,同时也不影响OLTP系统运行,此时需要构建一个集成统一的数据分析平台。
该平台的目的很简单:面向分析,支持分析,并且和OLTP系统解耦合。
基于这种需求,数据仓库的雏形开始在企业中出现了。
7. 数据仓库的构建
数仓是一个用于存储、分析、报告的数据系统,目的是构建面向分析的集成化数据环境。
这种面向分析、支持分析的系统就是OLAP(联机分析处理)系统。
数据仓库是OLAP系统的一种实现。
基于分析决策需求,构建数仓平台。
8. 数仓的主要特征
9. ETL
抽取、转换、加载。
10. 结构化数据
结构化数据也称为行数据,是由二维表结构来逻辑表达和实现的数据