数仓基本概念

 

  • 业务板块:比数据域更高维度的业务划分方法,适用于特别庞大的业务系统。
  • 维度:维度建模由Ralph Kimball提出。维度模型主张从分析决策的需求出发构建模型,为分析需求服务。维度是度量的环境,是我们观察业务的角度,用来反映业务的一类属性 。属性的集合构成维度 ,也可以称为实体对象。例如, 在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。
  • 属性(维度属性):维度所包含的表示维度的列称为维度属性。维度属性是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。
  • 度量:在维度建模中,将度量称为事实 , 将环境描述为维度,维度是用于分析事实所需要的多样环境。度量通常为数值型数据,作为事实逻辑表的事实。
  • 指标:指标分为原子指标和派生指标。原子指标是基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,是具有明确业务含义的名词 ,体现明确的业务统计口径和计算逻辑,例如如支付金额。
    • 原子指标=业务过程+度量
    • 派生指标=时间周期+修饰词+原子指标,派生指标可以理解为对原子指标业务统计范围的圈定。
  • 业务限定:统计的业务范围,筛选出符合业务规则的记录(类似于SQL中where后的条件,不包括时间区间)。
  • 统计周期:统计的时间范围,例如最近一天,最近30天等(类似于SQL中where后的时间条件)。
  • 统计粒度:统计分析的对象或视角,定义数据需要汇总的程度,可理解为聚合运算时的分组条件(类似于SQL中的group by的对象)。粒度是维度的一个组合,指明您的统计范围。例如某个指标是某个卖家在某个省份的成交额,则粒度就是卖家、地区这两个维度的组合。如果您需要统计全表的数据,则粒度为全表。在指定粒度时,您需要充分考虑到业务和维度的关系。统计粒度常用语作为派生指标的修饰词而存在。
### 库的基本概念 库是一个用于支持管理和决策的信息系统组件,其核心目标是对企业内部各类据进行集中化存储和管理[^1]。它通过对来自多个异构源系统的据进行抽取、转换和加载(ETL),形成一个统一的据视图,从而为企业提供高效的据查询和分析能力。 #### 什么是库? 库可以被定义为一种面向主题的、集成的、相对稳定的、反映历史变化的据集合[^2]。它的设计目的是为了支持管理层的决策制定过程。例如,在零售行业中,库可以帮助企业管理者了解销售趋势、客户行为以及库存状况等重要信息。 #### 库的主要特征 库具有以下几个显著特点: - **面向主题**:与传统操作型据库不同,库的设计围绕具体的业务领域展开,而不是事务处理流程。 - **集成性**:库中的据来源于多种渠道,经过清洗和标准化后才能进入库,因此具备高度一致性。 - **稳定性**:一旦写入库,通常不会频繁更新或删除记录;相反,新版本会被追加保存下来以便追踪时间序列上的变动情况。 - **历史性**:保留过去某一时间段内的全部交易细节或其他形式的历史资料对于长期趋势研究至关重要。 ### 技能要求 掌握构建和维护有效运作模式下的现代型企业级规模大小不等的各种类型的数仓所需的知识和技术是非常重要的: #### ETL 过程的理解与实践 熟悉 Extract (提取), Transform(变换) 和 Load(装载) 的整个工作流是成为合格的大据工程师的基础之一。此过程中涉及到了大量的编程技巧如 SQL 查询优化, Python 脚本编写等等来完成复杂的据映射关系定义及异常检测修复等功能实现。 #### 多维据分析方法论 学会运用 OLAP (Online Analytical Processing)工具来进行交互式的探索式分析也是必备的能力之一。这包括但不限于理解星型模型/雪花型架构设计原理; 掌握 MDX 或 DAX 表达式语法用于高级聚合运算等方面的内容[^4]。 #### 性能调优策略 随着据量的增长,如何保持良好的查询响应速度成为一个挑战性的课题。这就需要深入探讨索引机制的选择依据及其影响因素等问题,并采取适当措施加以改进,比如分区表的应用案例讨论等[^3]。 ```sql -- 创建分区表示例 CREATE TABLE sales_data ( sale_id INT, product_name VARCHAR(100), quantity_sold INT, sale_date DATE ) PARTITION BY RANGE (sale_date); ``` ### 据治理的重要性 除了上述提到的技术层面之外,还需要特别关注于建立健全完善的据管理制度框架体系之上——即所谓的“据治理体系”。其中包括但不限于元据管理、质量控制标准设定等多个方面的工作内容安排计划执行监督评估反馈循环迭代改进等一系列连续不断的动作组合而成的整体解决方案呈现给最终使用者参考借鉴采纳实施落地生根开花结果的过程描述而已啦!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值