了解数仓
什么是数仓
官方:面向主题的,集成的,随时间变化的,但信息本身是相对稳定的数据集
面向主题:数据仓库的设计和实现围绕主题展开
集成的:所有与数据仓库主题相关的数据(业务数据库,业务日志),都会集中存放在数据仓库
随时间变化的:最新生成的数据按照时间的周期定时加载到数据仓库
相对稳定:数据加载到数据仓库以后,一般不会修改,只会利用数据进行查询分析
个人理解:
数仓是由多种不同的工具组成,通过连接各种数据源,获取用户的数据,根据公司业务需求,将数据进行清洗,变形,整合,设计出数据模型,并通过模型为公司提供更高效准确的服务
数仓的分层
ODS(近源层):Operation Data Source
主要存放原始的数据信息,也就是用户给的原始数据,或者从网站上埋点获取的数据,也可以是服务器的日志还有第三方数据,不对这些数据进行任何处理,保持数据最原始的形式
DW:DataWarehouse
数据仓库的中层,对原始数据进行清洗,转换,整合后形成的维度表