什么是数据仓库?
数据仓库全称为Data Warehouse,简称DW。它是面向主题的,集成的,相对稳定的,反映历史变化的数据存储集合,用于支撑企业的分析报告与决策。

数仓的几个特点是什么?
- 主题性
将不同数据源的数据在一个较高抽象层次上做整合,数据围绕某一主题进行汇总,如电商主题有:订单、流量、商品、用户等 。
- 集成性
数仓中的数据来源于不同数据源的集成(如:tob业务系统数据源,toc业务系统数据源,erp业务系统数据源),且这些数据源的存储方式可能不同(如:mysql、orcale、hive等),因此需要做etl操作整合不同的数据源。
- 稳定性
数仓中的数据保存的是一些列历史快照数据,不允许数据被修改,使用人员只能查询或分析数据。
- 时变性
数仓会定期接受新的集成数据,反映最新的数据变化。
什么是OLAP? 什么是OLTP?
OLTP:on-line transaction processing,联机事务处理,需要考虑并发与事务
OLAP:on-line Analytical processing,联机分析处理,主要是面向分析,会产生大量的查询,一般很少涉及增删改
什么是拉链表?
在某些情况下,我们需要保留历史状态,使用拉链表可以在 保留历史状态的同时节省空间
什么是ETL?
- 数据的抽取
数据的抽取,就是把数据从数据源读出来
- 数据的转换
数据类型转换与脏数据清洗
- 数据的加载
处理后的数据加载到目标处,如数据仓库
