大数据基础概念

本文深入浅出地介绍了大数据领域的核心概念,包括大数据的定义、数据仓库(DW)、商务智能、OLAP与OLTP的区别、ETL过程、以及指标、维度、度量、事实表、维度表、基度、星型模型、数据立方等专业术语,为读者提供了全面的大数据基础知识。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据基础

大数据

通俗意思就是海量数据,通常无法使用常规软件在一定的时间范围内进行捕捉管理或者分析,需要一定的处理模式才能具有更强的决策力、洞察发现力和优化流程能力。

数据仓库(DW)

面向主题的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
商务智能的基础平台。
它是用于支持决策,面向分析型数据处理,不同于操作型数据库(面向应用),多个异构的数据源有效集成,按照主题重组,存放到仓库中并且一般不再修改。
数据按照主题域划分,主题域是更高层次的抽象概念,例如政策、市场分析等。

OLAP和OLTP
  • OLTP:联机事务处理过程也称为面向交易的处理过程,特点就是即使处理,客户原始数据立即传回计算中心处理,并在短时间内给出处理结果。
  • OLAP:联机分析处理,支持复杂分析操作,侧重于对决策的支持,要求快速的对大数据量进行查询分析。
ETL

萃取(extract)、转置(transform)、加载(load)
指从来源端到目的端的数据处理过程。一般用作于数据仓库。

指标维度等相关术语
  • 指标:事务发展的单位或方法(人口数、GDP、用户数、利润率等),通过几个关键指标可以衡量一个公司的发展情况。
    通过一定的前提条件进行加和、平均等汇总计算方式得到的,前提条件例如时间、地点、范围也就是统计范围和口径
  • 维度:事务或现象的某种特征,例如性别、地区、时间等,时间是一种特殊的维度,通过时间前后对比可以知道事务发展的好坏,也称为纵比
    与之相对的是横比,例如不同公司的用户数,这种不同国家或公司的同级单位比较就是横比。
    维度分为定性维度(字符/文本型)和定量维度(数字型)
  • 度量:一类可以进行聚合分析的特殊维度,聚合后的结果称为指标。
  • 事实表:数据仓库的中央表,表述业务内特定事件的数据。
  • 维度表:维度属性的集合,观察数据的特定角度。
  • 基度:数据表中某列数据去重后的元素个数。
  • 星型模型:多维数据关系,一张事实表和一组维度表组成。
  • cuboid:某一维度组合下,度量聚合后的结果集合。
  • 数据立方(cube):一组用于分析数据的相关度量值和维度,所有cuboid的集合,存储和分析的基本单位。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值