
数据仓库
young-ming
路漫漫其修远兮 吾将上下而求索
个人QQ:284407890
个人github:https://github.com/xmingyang
展开
-
老生常谈数据仓库如何保证数据质量
数据仓库如何保证数据质量1、从技术层面我们需要构建一套高效、健壮的ETL程序去保证数据清洗、转换后数据的正确性和一致性 举个简单的例子:对日期格式的处理,源系统有2013-30-08 2013\8\30 20130830 2013-08-40 等多种不规范格式要考虑合面,统一清洗转换成一致性数据2013-08-30,同时对错误数据进行剔除 并且系统提供事后自动检验机制,支持灵活的自定义原创 2013-08-30 09:11:44 · 6574 阅读 · 0 评论 -
数据仓库主题域
主题域通常是联系较为紧密的数据主题的集合。比如销售分析,进销存分析都是主题,可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域包含了某方面决策者关注的事物。一个主题域通常会覆盖多个业务部门,例如产品主题域涉及到销售、财务、物流、采购等部门。DW的设计方法一般采用面向主题的方法来设计。根据业务的特点,划分为若干个主题域,1、比如一个靠销售广告位置的门户网站主题域有:广告域,客户域...原创 2018-11-28 14:54:17 · 9925 阅读 · 0 评论 -
数据仓库中的几种数据模型
数据仓库中常见的模型有:范式建模,雪花模型,星型建模,事实星座模型.星型模型星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照维度进行了汇总,排序等等,数据量减少,执行的效率就比较高。 雪花模型雪花模型也是维...转载 2018-11-28 09:47:45 · 1699 阅读 · 0 评论 -
业务建模和概念模型设计
前言上一篇在数据仓库在技术架构设计和产品选择方面进行了一些总结。从这一篇将开始数据路径上的学习和思考吧。数据仓库作为一种产品,在不同的公司或者部门设计出来是不一样的。但是设计的思想是相通的。按照层次关系划分,数据路径上包括业务建模,概念模型设计,逻辑模型设计和物理模型设计。业务建模是针对公司或者部门级的业务进行全方面的梳理和分解。 概念建模是对业务模型进行抽象出来实体以及实体与实体之...转载 2018-11-28 09:36:56 · 3449 阅读 · 0 评论 -
范式建模
上篇讲述了一些抽象的概念模型和逻辑模型设计的东西,接下来就该讲述如何来一步一步的利用Inmon和Kimball数据仓库的理论来建设数据仓库的模型,主要分几块吧,一个是范式建模,然后是维度建模(分几篇总结),最后是因地制宜,按照自己的平台来考虑如何综合的考虑Inmon和Kimball数据仓库的理论的应用。Inmon最初的建模理论是通过构建一个符合三范式的集中式的数据中心DW层,此层次的表一般不对...转载 2018-11-28 09:35:21 · 4175 阅读 · 0 评论 -
数据仓库3NF基础理论和实例
一、引言 最近在梳理大数据模式下的数据仓库数据模型,花了点时间,系统的回顾一下传统数据仓库数据模型设计的理论,作为笔记分享给大家,很多资料来自互联网和读过的数据仓库理论和实践相关的熟悉,无剽窃之心,共勉吧。二、3NF(1)1NF-无重复的列 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。 如果出现重复的...转载 2018-11-28 09:33:55 · 1330 阅读 · 0 评论 -
oozie整理
Hadoop作业流调度系统基本功能 对常见作业类型进行调度 MapReduce(Java、Streaming等)作业 Hive作业 Pig作业 Shell ….Oozie运行流程Oozie基本架构Oozie 使用方式原创 2017-08-12 13:15:23 · 574 阅读 · 0 评论 -
Oozie和Azkaban的技术选型和对比
Oozie和Azkaban的技术选型和对比一.Azkaban和Oozie的工作流程1.1 Azkaban工作流程Azkaban将需要操作的信息打包成zip文件发送给Server端,Server对用户的信息进行存储。用户在Web UI 或者通过HTTP Client发送操作请求后,Server会根据用户定义的*.job文件(KV 匹配),执行zip包中的Jar文件。转载 2017-08-12 13:07:05 · 857 阅读 · 0 评论 -
数据质量稽核工具-datacheck
一个简单的数据质量稽核自动化工具,通过配置稽核sql,自动化发送报警。实现常见的稽核规则的检查,例:数据的一致性、完整性、及时性检查,指标的历史波动检查、关联检查、指标平衡检查、其他根据实际业务制定的业务规则检查原创 2017-07-19 17:38:12 · 13236 阅读 · 0 评论 -
kettle 数据库连接中断重置
项目适用kettle作为etl工具,源数据库为mysql库,目标库为oracle。在持续的循环调度中,经常发现oracle的数据库连接中断,需要重置。具体报错信息如下:INFO 26-12 23:40:13,220 - Kitchen - Logging is at level : Basic loggingINFO 26-12 23:40:13,221 - Kitchen转载 2014-12-29 13:48:31 · 11781 阅读 · 0 评论 -
数据仓库项目当中数据建模浅淡
数据仓库项目中数据建模是数据需求到数据落地中间承上启下的一个环节,个人认为非常的重要,它是对需求对的一种提炼,一种总结!逻辑上抽像点来说数据模型是对业务数据按照主题进行组织,它是一个载体;物理上来说它对应的是一系列的维表、事实表。那么数据仓库项目中数据建模需要着重注意哪些点呢?1、应该是面向主题建模,而不是面向报表,不应该不断的为了特定的报表大量重复的建模工作。2、确定数据模式,星型模原创 2013-09-01 21:49:03 · 1048 阅读 · 0 评论 -
数据仓库事实表
事实表分成三种:事务事实表、周期快照事实表、累计快照事实表事务事实表官方定义是:发生在某个时间点上的一个事件。比如以订单为例:下单是一个事实、付款是一个事实、退款是一个事实,所有事实的累计就是事务事实表周期快照事实表如果需要对某一天或者某个月的数据进行分析,那么可以使用周期快照事实表,比如:以天举例,财务报表一般都是周期快照事实表,它的最细粒度主键就是:日期+订单累计快照事实表...转载 2019-01-10 19:07:18 · 792 阅读 · 0 评论