
ETL学习笔记
文章平均质量分 83
红笺短
萌新求带飞!~
展开
-
ETL过程中的优化(数据库)
转载自:http://blog.youkuaiyun.com/yuewumian/article/details/65736641.引言 数据仓库建设中的ETL(Extract, Transform, Load)是数据抽取、转换和装载到模型的过程,整个过程基本是通过控制用SQL语句编写的存储过程和函数的方式来实现对数据的直接操作,SQL语句的效率将直接影响到数据仓库后台的性能。 目前,国内的大...转载 2017-10-17 19:27:25 · 958 阅读 · 0 评论 -
Informatica笔记
问题描述:工作流中通过command组件更新参数文件,某天发现该文件不更新了。问题原因:当时做过应急抽取,将该文件备份后进行了修改,抽取完成后再将备份的文件还原回来。使用cp命令生成的备份文件的权限是默认值755,而原文件的权限为775。这样通过mv命令将原文件覆盖掉之后,权限变成了755,缺少了同组用户的写权限,导致写入失败。Tips:如果涉及到参数文件等的复制和替换操作,要注意权限问题...原创 2019-01-14 17:03:59 · 887 阅读 · 0 评论 -
【好文搬运】Inmon vs Kimball:DW 2.0
转自http://doc.guandang.net/b1eac0ccec04fad12371e3c39.html随着拉尔夫·金博尔(Ralph Kimball)博士出版了他的第一本书“The DataWarehouse”(《数据仓库工具箱》),数据仓库行业就开始喧哗起来,恩门的“Building the Data”主张建立数据仓库时采用自上而下(DWDM)方式,以第3范式进行数据仓库模型设计,...转载 2019-01-10 13:51:13 · 1197 阅读 · 0 评论 -
字符集和编码的发展历程,深入浅出
转自http://www.cnblogs.com/uuhua/archive/2010/06/15/1758552.html,侵删。很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为”字节”。 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这...转载 2018-07-30 17:21:47 · 1270 阅读 · 1 评论 -
Informatica元数据
(一) Informatica所有的元数据信息均以数据库表的方式存到了元数据库中。当然Infa本身工具提供了很多的人性化的功能,使我们在开发时可以很方便的进行操作,但人们的需求总是万变的,需要方便的取到自己需要的信息,那就需要我们对他的元数据库有很深的了解。 Informatica通过表和视图给我们提供着所有的信息,在此将通过一个系列的帖子,将大部分常见的,且非常有用的表及视图介绍一下。基于这转载 2018-01-19 15:04:13 · 1040 阅读 · 0 评论 -
ODS简介
什么是ODS操作数据存储ODS(OperationalData Store)是数据仓库体系结构中的一个可选部分,由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。ODS设计与DW设计在着眼点上有所不同,ODS重点考虑业务系统数据是什么样子的,关系如何,在业务流程处理的哪个环节,以及数据抽取接口等问题。ODS是一个将面向主题的,动态增长的,非实时的,消除了原转载 2018-01-18 16:43:07 · 8163 阅读 · 0 评论 -
BI学习笔记
一、概述 商业智能项目最重要的就是解决各个业务系统间数据整合的问题,消除信息孤岛,为企业管理人员提供统一的数据查询和报表展示功能,能够进行多维度的数据分析和数据挖掘,对企业发展起到指导作用。1.商业智能的实施方法: 1)项目规划:前期准备、调研、分析等工作,逻辑模型的设计等。 2)系统设计与实现:系统体系结构、数据库、ETL的设计,前端应用的开发,元数据管理等。 3...原创 2018-01-18 16:39:11 · 2363 阅读 · 0 评论 -
Informatica Update机制详解
转自:http://informatica.iblog.com/post/3070/381606Informatica 作为ETL工具,Update是其很重要的一个特性。也正因为如此,我们会发现在Informatica工具的很多地方都会有Update的相关设置,许多时候给大家都造成了很大的迷惑,不知道谁先谁后,谁的优先级高,或者具体的作用是什么,希望能借此文给大家一个清晰的概念。转载 2018-01-08 15:07:05 · 731 阅读 · 0 评论 -
Oracle CDC简介及设置实例
[转] https://blog.youkuaiyun.com/l19901215/article/details/56296622一、增量数据采集概述 数据采集通常是指ETL过程中Extract-数据抽取部分。除了ETL外在不同应用系统之间通常也需要传递数据,在某些环境条件限制下不能将数据从一个系统直接移到另一个系统,只能借助文本来作为中间媒介传递数据,且文本的生成有时间窗口的限制,所以对数据采集即数据...转载 2019-07-19 17:28:13 · 12033 阅读 · 2 评论