大数据学习---数据仓库概述1

本文详细介绍了数据仓库的概念、特点,对比了数据仓库与数据库的区别,并探讨了传统与大数据数据仓库的技术实现。重点讲述了数据仓库的ETL过程、ODS、CDM(数据明细层与数据汇总层)和数据应用层的架构设计。此外,还概述了OLTP和OLAP系统的建模方法,包括ROLAP、MOLAP和维度模型在数据分析中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据仓库

1.数据仓库概念

数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。

数据仓库的输入数据通常包括:业务数据用户行为数据爬虫数据

业务数据:
就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在MySQL、Oracle等数据库中。

用户行为数据:
用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。

爬虫数据:
通常事通过技术手段获取其他公司网站的数据。

2.数据仓库特点

面向主题:为数据分析提供服务,根据主题将原始数据集合在一起。
集成:原始数据来源于不同数据源,要整合成最终数据,需要经过抽取、清洗、转换的过程。
非易失:保存的数据是一系列历史快照,不允许被修改,只允许通过工具进行查询、分析。
时变性:数仓会定期接受、集成新的数据,从而反映出数据的最新变化。

3.数据仓库VS数据库

数据库面向事务设计,属于OLTP(在线事务处理)系统,主要操作是随机读写;在设计时尽量避免冗余,常采用符合范式规范来设计。
数据仓库是面向主题设计的,属于OLAP(在线分析处理)系统,主要操作是批量读写;关注数据整合,以及分析、处理性能;会有意引入冗余,采用反范式方式设计。

在这里插入图片描述

4.技术实现

数据仓库建设方案:
传统数据仓库
大数据数据仓库

4.1 传统数据仓库

由关系型数据库组成MPP(大规模并行处理)集群
在这里插入图片描述
缺点:扩展性有限(单机架

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值