- 博客(14)
- 资源 (6)
- 收藏
- 关注
原创 OGG Defgen 使用方法
使用OGG抽取Oracle数据,有时 我们需要在Replication端设置SourceDefs属性,这样Replicat才能正确解析Trail流。OGG提供了defgen工具帮我们提取源端的表定义信息。如果大家在启动Replication时遇到cannot find source definition这样的error,一般需要指定SourceDefs属性,该属性值对应表结构的定义文件,需要使
2016-10-23 18:41:49
8118
1
原创 Oralce GoldenGate与Kafka集群集成
本文介绍如何配置Oracle GoldenGate 同步数据到Kafka,包括OGG源端安装配置,OGG for Big Data replication安装配置,以及如何与Kafka集群集成。OGG& Kafka安装部署软件准备1. Oracle11.2.0.2 生产环境运行的Oracle Server版本2. Or
2016-10-22 20:40:49
9534
翻译 ETL系列专题6——Load之FactLoad
ETL系列专题5——Load之FactLoadWarrenzqw_qw@hotmail.com事实表包含企业业务分析所需要的量度,通常表现为数值型数据。那么事实表和量度的关系怎样?可以这么理解,如果有一个量度,那么它会存在于事实表中的一行记录中。事实表的基本结构事实表的粒度,我们知道事实表的粒度可以通过维度外键来确定。但是确定事实表数据粒度的正确次序应该首先从量度实际发生的现实
2013-07-12 16:45:55
1074
转载 SQL Server 执行连接的方式 - Hash Join
The hash join has two inputs: the build input and probe input. The query optimizer assigns these roles so that the smaller of the two inputs is the build input.Hash joins are used for many types of
2013-06-25 13:13:32
1136
转载 SQL Server 执行连接的方式 - Merge Join
The merge join requires both inputs to be sorted on the merge columns, which are defined by the equality (ON) clauses of the join predicate. The query optimizer typically scans an index, if one exists
2013-06-25 13:09:40
1035
转载 SQL Server 执行连接的方式 - Nested Loops Joins
The nested loops join, also called nested iteration, uses one join input as the outer input table (shown as the top input in the graphical execution plan) and one as the inner (bottom) input table.
2013-06-25 13:08:09
727
翻译 ETL系列专题5——L之DimLoad
ETL系列专题5——Load之DimLoadWarrenzqw_qw@hotmail.comL(Load),装载,就是把准备好的数据加载到Star-Schema。Kimball把这个步骤称作Delivery,这个词在软件业务中更专业,但是Load是从数据流角度的直观理解。其实笔者更喜欢Delivery这种说法,Delivery包含了除数据交付之外更多的涵义(ETL处理之后的交付物是加载
2013-06-23 11:42:35
1326
翻译 ETL系列专题4——ETL之T
ETL系列专题4——ETL之T转换(Transform),是ETL过程中最复杂的部分,ETL中E和L都非常容易理解,Extract从源系统中提取数据,Load将数据载入星型模型。而转换的过程涉及到更多的内容,Kimball把这个过程拆解为清洗(Clean)和统一化(Conform), 这样更容易从数据流的角度去理解ETL过程,实际工作中,我们一般把这两项工作在物理上作为一个过程来处理,比如
2013-06-17 22:08:08
2673
翻译 ETL系列专题 1——DW/BI的基石
ETL系列专题 1——DW/BI的基石Warren zqw_qw@hotmail.com在DW领域中真的不敢说有什么大的经验,因为之前一起工作的中外同事都不知道要比我高深多少。如果说他们是太平洋,我充其量就是我现在身边的这杯水,还被我喝掉了半瓶!开始想写时还真不知道写点什么?那就索性先写点ETL的东西吧,该系列将主要介绍Kimball ETL架构理论,期间会加入笔者的一些拙劣想法或
2013-06-15 17:57:05
1828
翻译 ETL系列专题2——ETL中的数据结构
数据结构这个名词对计算机科学专业的同行一定十分熟悉,在我们工作中也是无处不在地使用数据结构,本章节首先介绍一下数据结构的概念和主要作用(请大家忍受一下笔者的啰嗦),然后着重介绍一下数据结构在ETL中的使用。什么是数据结构数据结构是针对数据的组织与存储需要而设计的一种数据格式。常见的数据结构类型有数组,文件,记录,线性表,链表,树,图等等。任何一种数据结构的选择和设计的目的都是为了更加方便地
2013-06-15 17:45:53
2141
原创 ETL系列专题3——ETL之E
ETL系列专题3——ETL之E从本章开始介绍基于ETL的数据流架构,首先介绍E(Extract)过程。抽取(Extract)没有数据,DW/BI的模型再好也没有任何用处。数据集成的第一个步骤就是从业务系统中抽取(Extract)数据。伴随着企业的蓬勃发展,业务的不断扩张,相应的信息系统也随之多种多样:销售管理系统,供应链系统,库存系统,产品控制系统……这些系统通常来自于不同软件供应商,
2013-06-15 14:29:49
2280
转载 ETL 38子系统
To create a successful data warehouse, rely on best practices, not intuition.Three little letters -- E,T, and L -- obscure the reality of 38 subsystems vital to successful data warehousing.By Ra
2013-06-10 14:56:43
689
原创 DBMS索引的选择
约定:这里以SQL Server 2008 DB Engine为环境问题:这是一家公司的面试问题有一张表结构如下tbl( col1 int ,col2 intcol3 int)1。在col1上有non clustered index,表上没有其他约束假设col1上有=1的这条记录那么下面的query是否会使用索引select *from tb
2013-06-08 11:23:27
838
原创 怎么理解数据仓库中的元数据
在讨论组里看到很多同行,朋友和DW爱好者们讨论元数据,这里本人就元数据的理解和大家分享一下,如有偏差欢迎批评指正。元数据——“关于数据的数据”这个概念大家都知道了,但是如何理解这个关于数据的数据呢?从概念上我们可以看出,当我们说元数据时,必须有个参照,就是“关于的那个数据”,即这个概念里面有两个“数据”,我们不能孤立地说某个数据是元数据,只能说某个数据(Data A)是另外某个数据的元数据
2013-05-07 17:53:50
1274
ETL开发CaseStudy-SSIS版
2013-04-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人