文章目录
数据仓库
1.数据仓库概念
数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。
数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等
业务数据:
就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在MySQL、Oracle等数据库中。
用户行为数据:
用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。
爬虫数据:
通常事通过技术手段获取其他公司网站的数据。
2.数据仓库特点
面向主题:为数据分析提供服务,根据主题将原始数据集合在一起。
集成:原始数据来源于不同数据源,要整合成最终数据,需要经过抽取、清洗、转换的过程。
非易失:保存的数据是一系列历史快照,不允许被修改,只允许通过工具进行查询、分析。
时变性:数仓会定期接受、集成新的数据,从而反映出数据的最新变化。
3.数据仓库VS数据库
数据库面向事务设计,属于OLTP(在线事务处理)系统,主要操作是随机读写;在设计时尽量避免冗余,常采用符合范式规范来设计。
数据仓库是面向主题设计的,属于OLAP(在线分析处理)系统,主要操作是批量读写;关注数据整合,以及分析、处理性能;会有意引入冗余,采用反范式方式设计。
4.技术实现
数据仓库建设方案:
传统数据仓库
大数据数据仓库
4.1 传统数据仓库
由关系型数据库组成MPP(大规模并行处理)集群
缺点:扩展性有限(单机架