
数据仓库
文章平均质量分 93
数据仓库及建模简介
只是甲
10年及以上金融信贷、通信行业数据库运维管理、数据仓库及大数据相关工作经验,持有Oracle OCP和Linux RHCE认证证书。
展开
-
数据仓库系列10- 数据仓库规范
文章目录一. 数据模型架构原则1.1 数据仓库分层1.1.1 ODS(源数据层)1.1.2 DW(数据仓库层)1.1.2.1 数据明细层:DWD(Data Warehouse Detail)1.1.2.2 数据中间层:DWM(Data WareHouse Middle)1.1.2.3 数据服务层:DWS(Data WareHouse Servce)1.1.3 ADS(数据应用层)1.1.4 维表层(Dimension)1.2 主题域划分原则1.2.1 按照业务或业务过程划分1.2.2 按照数据域划分1.3原创 2021-12-10 09:43:33 · 1033 阅读 · 1 评论 -
数据仓库系列9- 大数据分析
文章目录一. 大数据概览1.1 扩展的 RDBMS 结构1.2 MapReduce/Hadoop 结构1.3 大数据结构比较二. 推荐的应用于大数据的最佳实践2.1 面向大数据管理的最佳实践2.2 面向大数据结构的最佳实践2.3 应用于大数据的数据建模最佳实践2.4 大数据的数据治理最佳实践参考:一. 大数据概览 什么是大数据 ?所谓的 “大” 实际上并不是大数据的最有趣的特征 。大数据是结构化、 半结构化、非结构化以及众多不同格式的原始数据 ,某些情况下 ,它看起来与您 30 多年来 在数据仓库原创 2021-12-09 16:56:43 · 2569 阅读 · 0 评论 -
数据仓库系列8-ETL系统设计与开发过程和任务
文章目录一. ETL 过程概览二. ETL 开发规划2.1 第 1 步:设计高层规划2.2 第 2 步:选择 ETL 工具2.3 第 3 步:开发默认策略2.4 第 4 步:按照目标表钻取数据2.5 开发 ETL 规范文档三. 开发一次性的历史加载过程3.1 第 5 步:用历史数据填充维度表3.1.1 填充类型 1 维度表3.1.2 维度转换3.1.3 维度表加载3.1.4 加载类型 2 维度表历史3.1.5 对日期和其他静态维度的填充3.2 第 6 步:完成事实表历史加载四. 开发增量式 ETL 过程4.原创 2021-12-09 16:10:09 · 3749 阅读 · 0 评论 -
数据仓库系列7-ETL 子系统与技术
一. 需求综合 ETL 系统结构的建立始于处理一个最棘手的问题:需求综合 。需求综合的含义是收集 并理解所有己知的将会影响 ETL 系统的需求 、现实和约束等 。需求的列表可能会很长 ,但 在开始 ETL 系统开发前应该都已经收集到了表中 。 ETL 需求是必须面对的主要约束且必须要与系统适应 。在此需求框架下,可以指定相 关决策 、做出判断和开展创新工作 ,但是需求描述了 ETL 系统必须发布的核心元素 。 在开始 ETL 设计和开发工作前 ,应当提供针对以下所有10个需求的应答 。我们为每原创 2021-12-08 10:56:57 · 3191 阅读 · 0 评论 -
数据仓库系列6-维度建模过程与任务
文章目录一. 建模过程概述二. 组织工作2.1 确定参与人 ,特别是业务代表们2.2 业务需求评审2.3 利用建模工具2.4 利用数据分析工具2.5 利用或建立命名规则2.6 日历和设施的协调三. 维度模型设计3.1 统一对高层气泡图的理解3.2 开发详细的维度模型3.3 模型评审与验证参考:一. 建模过程概述 开始讨论维度建模设计工作前,必须考虑正确的人选 。最值得注意的是,我们强烈主张业务代表参加建模会议 。他们的加入与合作必然会增加最终模型解决用户需求的可能性。同样,组织的业务数据 管理人员也原创 2021-12-07 10:40:06 · 827 阅读 · 0 评论 -
数据仓库系列5-Kimbal DW/BI生命周期概述
文章目录一. 生命周期初始活动1.1 程序/项目规划与管理1.1.1 评估准备1.1.2 范围及论证1.1.3 人员配备1.1.4 规划的开发及维护1.2 业务需求定义1.2.1 需求预规划1.2.2 收集业务需求1.3 生命周期技术路径1.3.1 技术架构设计1.3.2 产品选择与安装1.4 生命周期数据路径1.4.1 维度建模1.4.2 物理设计1.4.3 ETL 设计与开发1.5 生命周期 Bl 应用路径1.5.1 Bl 应用规范1.5.2 Bl 应用开发1.6 生命周期总结活动1.6.1 部署1.6原创 2021-12-06 10:16:58 · 757 阅读 · 0 评论 -
数据仓库系列4-维度表
文章目录一. 维度表技术基础1.1 维度表结构1.2 维度代理键1.3 自然键、持久键和超自然键1.4 下钻1.5 退化维度1.6 非规范化扁平维度1.7 多层次维度1.8 文档属性的标识与指示器1.9 维度表中的空值属性1.10 日历日期维度1.11 扮演角色的维度1.12 杂项维度1.13 雪花维度1.14 支架维度二. 使用一致性维度集成2.1 一致性维度2.2 缩减维度2.3 跨表钻取2.4 价值链2.5 企业数据仓库总线架构2.6 企业数据仓库总线矩阵2.7 总线矩阵实现细节2.8 机会/利益相关原创 2021-12-02 11:03:02 · 3988 阅读 · 0 评论 -
数据仓库系列3-事实表
文章目录一. 事实表介绍1.1 事实表结构1.2 事实表的度量1.3 事实表中的空值1.4 一致性事实二. 事实表分类2.1 事务事实表2.2 周期快照事实表2.3 累积快照事实表2.4 无事实的事实表2.5 聚集事实表或 OLAP 多维数据库2.6 合并事实表三. 如何设计事实表3.1 确定数据域3.2 选择业务过程3.3 确定粒度3.4 确定维度3.5 确定事实3.6 冗余维度四. 高级事实表技术4.1 事实表代理键4.2 蜈蚣事实表4.3 属性或事实的数字值4.4 日志/持续时间事实4.5 头/行事实原创 2021-12-01 15:34:37 · 2584 阅读 · 0 评论 -
数据仓库系列2-数据仓库建模介绍
文章目录一.建模理论1.1 ER实体模型1.2 维度建模1.2.1 事实表1.2.2 维度表1.3 Data Vault模型1.4 Anchor二. 四种基本建模方法对比三. 维度建模技术基本概念3.1 收集业务需求与数据实现3.2 协作维度建模研讨3.3 4 步骤维度设计过程3.4 业务过程3.5 粒度3.6 描述环境的维度3.7 用于度量的事实3.8 星型模式与 OLAP 多维数据库3.9 方便地扩展到维度模型参考:一.建模理论1.1 ER实体模型在信息系统中,将事务抽象为“实体”(Entity原创 2021-11-30 09:29:33 · 2067 阅读 · 0 评论 -
数据仓库系列1-数据仓库介绍
文章目录一. 数据仓库定义二. 操作型系统和分析型系统三. 数据仓库的用途参考:一. 数据仓库定义数据仓库(Data Warehouse,简称DW)是面向主题的、集成的、稳定的、反映历史变化的数据集合。面向主题主题是业务数据特点的一种抽象表达,一般从主题名称字面意思即可大致了解主题下数据的业务意义。常见主题如客户主题,其下实体有客户基本信息、客户资产信息等等。集成包括数据的集成及编码规则的集成。数据仓库中的数据通常来自于各不同源业务应用系统,在入数据仓库时,这些数据可能被集成。另外,由原创 2021-11-29 16:52:06 · 1469 阅读 · 0 评论