数据仓库
大富的大数据之路
大数据开发程序媛
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
1- ETL概念
1、什么是ETL?ETL通常是按一个固定的时间间隔,周期性定时执行的,对于整体拉取的方式,每次导入的数据需要覆盖上次导入的数据。Sqoop提供了delete-target-dir参数实现覆盖导入。该参数指示在每次抽取数据前先将目标目录删除,作用是提供了一个幂等操作的选择。所谓幂等操作指的是其执行任意多次所产生的影响均与一次执行的影响相同。这样就能在导入失败或修复bug后可以再次执行该操作,而不用...原创 2019-07-11 14:47:37 · 322 阅读 · 0 评论 -
13- 数据建模-建模方法三:实体建模
实体建模法并不是数据仓库建模中常见的一个方法,它来源于哲学的一个流派。 从哲学的意义上说,客观世界应该是可以细分的,客观世界应该可以分成由一个个实 体,以及实体与实体之间的关系组成。我们在数据仓库的建模过程中完全可以引入这个抽象的方法,将整个业务也可以划分成一个个的实体,而每个实体之间的 关系,以及针对这些关系的说明就是我们数据建模需要做的工作。 虽然实体法粗看起来好像有一些抽象,其实理解起...转载 2019-07-11 20:36:13 · 5375 阅读 · 0 评论 -
10-数据仓库-建模方法
目前业界较为流行的数据仓库的建模方法非常多,这里主要介绍范式建模法,维度建模法,实体建模法、Data Vault模型、Anchor模型等几种方法1、3NF范式建模方法参见 https://blog.youkuaiyun.com/yaoyelinger0912/article/details/955007622、维度建模法参见 https://blog.youkuaiyun.com/yaoyelinger0912/...转载 2019-07-11 20:42:08 · 353 阅读 · 0 评论 -
14- 数据仓库-建模步骤
照层次关系划分,数据路径上包括业务建模,概念模型设计,逻辑模型设计和物理模型设计1、业务建模2、原创 2019-07-11 20:50:16 · 306 阅读 · 0 评论 -
15- 数据仓库-建模步骤一:业务建模
业务建模是针对公司或者部门级的业务进行全方面的梳理和分解,主要解决业务层面的分解和程序化 业务建模也是按照层级逐层展开的,依次是顶层模型,业务域,业务流程,业务环节1、顶层模型 顶层模型是从公司整体业务的角度,划分业务模块,以及各个业务模块之间的交互关系。比如公司有交易,财务,营销模块,财务模块跟营销之间的关系有营销活动发起之前要申请预算,采取需要统计营销活动的成本。交易可以配置营销活动...转载 2019-07-11 20:50:51 · 1167 阅读 · 0 评论 -
16- 数据仓库-建模步骤二:概念建模
概念建模是对业务模型进行抽象出来实体以及实体与实体之间的关系,把业务建模的各个业务流程过程抽象出实体和关系(ER) 概念模型关注的是实体和实体之间的关系,对于实体的属性没有做过多的考虑。概念模型的设计结果将直接指导接下来的逻辑模型和物理模型设计,可以说概念模型是在整个模型设计过程中最重要的一环 概念模型的设计可以一定的参考ER模型设计,当然也有很多成熟的方法论,比如DWER等等 概念模型...原创 2019-07-11 20:54:59 · 921 阅读 · 0 评论 -
17- 数据仓库-建模步骤三:逻辑模型 或 维度建模 LDM(Logical Data Model)
逻辑建模涉及到整个数据仓库所有层次的模型设计,从DW到DM甚至到了OLAP。重点的设计是在DW和DM层 逻辑模型是对概念模型进行具体的设计,实体的属性,主键,外键等等,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化 逻辑建模主要工作: 1.分析主题域 确定要装载到仓库的主题名称,各自主题的码键和属性组;主题内的实体,及其容量和更新频率;实体的列的属性等 2.粒...转载 2019-07-11 21:46:17 · 1948 阅读 · 0 评论 -
18- 数据仓库-建模步骤四:物理建模
物理模型是将逻辑模型具体实施,考虑各种具体的技术实现因素,进行数据仓库体系结构设计,真正实现数据在数据仓库中的存放主要解决,逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术问题...转载 2019-07-11 22:39:41 · 728 阅读 · 0 评论 -
3- ETL-ETL设计一
ETL设计分三部分: 1> 数据抽取 2> 数据的清洗转换 3> 数据的加载 继承问题: 1> 抽取,怎么从源系统抽取?抽取的步骤是什么?有哪些抽取方法? 2> 数据的清洗和转换都做了哪些事情? 3> 加载,怎么加载到数据仓库? 4> 数据仓库通常分为好几层,这里的加载加载进哪一层?* 回答...原创 2019-07-12 12:18:39 · 397 阅读 · 0 评论 -
4- ETL-ETL设计二
111原创 2019-07-12 12:22:34 · 215 阅读 · 0 评论 -
5- ETL-ETL实现方法
ETL的实现有多种方法,常用的有三种: 一种是借助ETL工具(如Oracle的OWB、SQLServer2000的DTS、SQLServer2005的SSIS服务、Informatic等)实现 一种是SQL方式实现 一种是ETL工具和SQL相结合 两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少...原创 2019-07-12 12:25:49 · 1158 阅读 · 0 评论 -
12- 数据建模-建模方法二:维度建模
·1111原创 2019-07-11 20:28:49 · 1573 阅读 · 0 评论 -
11- 数据建模-建模方法一:3NF范式建模
范式建模法其实是我们在构建数据模型常用的一个方法 该方法主要由 Inmon 所提倡,从企业高度设计的一个3NF模型,用实体关系ER模型来描述企业业务,基本满足3NF理论。为数据分析决策服务,但不能直接用于分析决策 主要解决关系型数据库的数据存储,利用的一种技术层面上的方法。在关系型数据库中的建模方法,大部分采用的是三范式建模法 典型代表:Teradata金融行业的FS-LDM(Finaci...原创 2019-07-11 18:18:40 · 2943 阅读 · 0 评论 -
1- 数据仓库研发规范概述
阶段规划鉴于对日常数据仓库研发工作的总结与归纳,本文将数据仓库研发流程抽象为如下几点:1> 需求阶段:数据产品经理应如何应对不断变化的业务需求2> 设计阶段:数据产品经理、数据开发者应如何综合性能、成本、效率、质量等因素来更好地组织与存储数据3> 开发阶段:数据研发者如何高效、规范地进行编码工作4> 测试阶段:测试人员应如何准确地暴露代码问题与项目风险,提升产...转载 2019-07-11 14:23:18 · 390 阅读 · 0 评论 -
2- ETL-定期ETL
初始装载只在开始数据仓库使用前执行一次,然而,必须按时调度定期执行ETL。与初始装载不同,定期装载一般都是增量的,而且需要捕获并记录数据的变化历史1、变化数据捕捉 数据获取处理需要重点考虑增量抽取,也被称为变化数据捕获,简称CDC 假设一个数据仓库系统,在每天夜里的业务低峰时间从操作型源系统抽取数据,那么增量抽取只需要过去24小时内发生变化的数据。变化数据捕获也是建立准实时数据仓库的关...原创 2019-07-11 15:03:21 · 378 阅读 · 1 评论 -
2-数据仓库 -建设步骤一
数据仓库的开发过程主要有几个方面:规划分析阶段、设计实现阶段、使用维护阶段1、数据源分析 数据源是数据仓库系统所有信息的源头,主要是操作型业务应用系统存放的数据集合 数据源的分析的过程分为范围分析、格式分析、更新方式分析、质量分析4个方面 1> 范围分析:是指分析数据的范围。用户需要确定数据仓库系统需要数据源中的哪些原始数据 2> 格式分析:是指对原始数据在数据库中的物理存储...原创 2019-07-11 15:13:48 · 358 阅读 · 0 评论 -
3-数据仓库 -建设步骤二
1、系统分析,确定主题 确定一下几个因素: 1> 操作出现的频率,即业务部门每隔多长时间做一次查询分析 2> 在系统中需要保存多久的数据,是一年、两年还是五年、十年 3> 用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年 4> 用户所能接受的响应时间是多长、是几秒钟,还是几小时2、选择满足数据仓库系统要求的软件平台 选择合适的软件平台,包括数据库...原创 2019-07-11 16:40:34 · 233 阅读 · 0 评论 -
4- 数据仓库-操作型数据库 VS 分析型数据库
操作型数据库 VS 分析型数据库因为主导功能的不同(面向操作/面向分析),两类数据库就产生了很多细节上的差异1、数据组成差别 - 数据时间范围差别 操作型数据库只会存放90天以内的数据,而分析型数据库存放的则是数年内的数据。这点也是将操作型数据和分析型数据进行物理分离的主要原因2、数据组成差别 - 数据细节层次差别 1> 操作型数据库存放的主要是细节数据,而分析型数据库中虽然既有...原创 2019-07-11 16:49:56 · 2000 阅读 · 0 评论 -
5- 数据仓库特点或 分析型数据库特点
数据仓库不应让传统关系数据库来实现,因为关系数据库最少也要求满足第1范式,而数据仓库里的关 系表可以不满足第1范式。面向分析的存储系统数据仓库特点:1.、面向主题(Subject Oriented) 1> 面向主题特性是数据仓库和操作型数据库的根本区别 操作型数据库是为了支撑各种业务而建立,而分析型数据库则是为了对从各种繁杂业务中抽象出来的分析主题(如用户、成本、商品等)进行分析而...原创 2019-07-11 17:03:02 · 1094 阅读 · 0 评论 -
6- 数据仓库-保存历史数据方法 ——拉链表
1、拉链表定义: 拉链表:记录一个事物从开始,一直到当前状态的所有变化的信息。拉链表中会定义数据的有效时间,有效的起始时间与有效的截止时间 拉链表是数据仓库保留数据历史版本的一种方法2、拉链表原理参见网址:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/91810916参见网址:https://blog.youkuaiyun.com/...原创 2019-07-11 17:19:15 · 1563 阅读 · 0 评论 -
7- 数据仓库-增量表、全量表、快照表
1> 增量表增量表:新增数据,增量数据是上次导出之后的新数据记录每次增加的量,而不是总量增量表,只报变化量,无变化不用报2> 全量表每天的所有的最新状态的数据全量表,有无变化,都要报每次上报的数据都是所有的数据(变化的 + 没有变化的)3> 快照表按日分区,记录截止数据日期的全量数据快照表,有无变化,都要报每次上报的数据都是所有的数据(变化的 + 没有变化的...原创 2019-07-11 17:22:51 · 788 阅读 · 0 评论 -
8- 数据仓库-数据集市 (data mart)
1、数据集市概念 在数据仓库领域有一个概念叫Oper Mart,中文一般翻译为“操作集市” 操作集市是为了企业战术性的分析提供支持,它的数据来源是数据仓库。它是数据仓库在分析功能上的扩展,使用户可以对操作型数据进行多维分析 数据集市可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局2、操作集市和数据集市 操作集市和数据集市很相似,但是它不能用来取代用于战略性分析的数据...原创 2019-07-11 17:44:09 · 3511 阅读 · 0 评论 -
9- 数据仓库3NF
数据仓库3NF基础理论和实例:1> 1NF-无重复的列 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性 说明:在任何一个关系数据库中,第一范式(1NF)是对关系模式的基本要求,不满足第一范式(1NF)的数据库就不是关系数据库 第一范式(1NF):数据库表中的字段都是单一属性的,不可再分2> 2NF-部分...原创 2019-07-11 17:54:51 · 466 阅读 · 0 评论 -
6- ETL-ETL日志
1、ETL日志 ETL日志分为三类。一类是执行过程日志,这一部分日志是在ETL执行过程中每执行一步的记录,记录每次运行每一步骤的起始时间,影响了多少行数据,流水账形式。一类是错误日志,当某个模块出错的时候写错误日志,记录每次出错的时间、出错的模块以及出错的信息等。第三类日志是总体日志,只记录ETL开始时间、结束时间是否成功信息。如果使用ETL工具,ETL工具会自动产生一些日志,这一类日志也可以...原创 2019-07-12 12:28:46 · 2605 阅读 · 0 评论
分享