
etl
forever_ai
爱我的人,我爱的人。平平安安,健健康康的过一辈子就行了。
展开
-
面向数据集成的ETL技术研究
转载 : http://blog.chinabyte.com/a/445097.html数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享,是企业商务智能、数据仓库系统的重要组成部分。ETL是企业数据集成的主要解决方案。文章从ETL的概念出发,简要分析了当前ETL中用到的一些基本技术,为ETL系统的开发和ETL技术的应用提供一些参考。转载 2012-03-07 13:41:02 · 2001 阅读 · 0 评论 -
infa参数和变量
参数表示在运行会话之前您可以定义的常量值。变量表示在会话进行时一个可以改变的值。在每个会话成功运行后,PowerCenter Server 都会将映射变量的值保存到资料库并在下次您运行此会话时使用该值。原创 2012-10-30 14:42:30 · 1657 阅读 · 0 评论 -
数据仓库与数据集市
转载:http://www.blogjava.net/mlh123caoer/articles/48206.html数据仓库与数据集市看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:(1) 基本概念(2) 为什么提出数据集市(3) 数据仓库设计方法论(4)转载 2013-07-17 16:45:06 · 1872 阅读 · 0 评论 -
数据仓库数据质量管理【转】
一个完善的数据仓库必须含有一个完整的数据质量管理系统与元数据管理系统,但是目前国内的数据仓库对数据质量管理这块都不是那么重视,我个人觉得这是一个很大的误区,一个数据仓库如果连数据质量都无法保证,还如何基于做出有效的分析来给决策者做决策的依据? 从个人理解的角度看,数据质量管理系统应该包含数据质量检测、脏数据的处理与修正这两块。对于数据质量检测这块,又分为物理数据监控与逻辑数据监控。转载 2013-07-26 06:41:45 · 1478 阅读 · 0 评论 -
informatica利用ant发送邮件
1)用command调用ant #!/usr/bin/ksh/test/infa/apache-ant-1.8.3/bin/ant -buildfile /test/infa/ant_mail/run_jiekou_status/build.xml2)编写bulid.xml--这里编码设置非常重要${mail_content}原创 2013-07-16 11:04:33 · 3018 阅读 · 0 评论 -
《DW2.0---下一代数据仓库的架构》读书笔记
转载:http://jianchen.iteye.com/blog/777436 感谢那位兄弟分享在公司花了一天时间把这本书翻完了,这本书是PM借我看的,之前一直忙项目,没有时间看,在国庆期间就想把它看完早点还了。书不厚,才218页,所以比较快的看完了,总算完成了既定目标。这本书是老外写的,但是翻译的不错。至少我从头读到尾没感觉很不顺畅的地方。看封面上写的主要四个人翻译的,看来转载 2013-09-16 10:37:17 · 2242 阅读 · 0 评论 -
Yahoo数据仓库架构简介
转载:http://www.cnblogs.com/end/archive/2012/07/31/2617117.html 谢谢分享1. Yahoo数据仓库的整体架构 Yahoo数据仓库在基础架构上由hadoop集群和Oracle集群组成,hadoop集群是一个计算平台,完成所有ETL数据处理过程;Oracle集群只是一个查询环境。 数据通过Data highwa转载 2013-10-23 11:01:37 · 1306 阅读 · 0 评论 -
hive窗口函数sort by多个字段
hive目前不支持sum over(sort by 多个字段),但是可以有另外一种解决方法:在Hive里面,可以over把这一部分独立抽出来做声明。代码如下:select cloum1,cloum2,price,sum(price) over w1 as sfrom tablewindow w1 as (distribute by cloum1,cloum2 sort by原创 2013-12-11 16:47:41 · 4946 阅读 · 0 评论 -
高级分析(BI)本质的思考
以下内容是转载:作者分析透彻,理解深刻。受益匪浅点击打开链接新的一年,回顾一下近10年的BI生活,觉得可以思考一下本质的东西,在这里进行抛砖引玉(现在又叫高级分析了)。从BI开发实施流程的角度看,是先了解需求,然后设计框架,设计模型,再是开发、上线,用户使用、反馈-》循环下一期项目。我们每个人身处一个角度、一个角色时可能只管好自己那部分,而忽略整体的价值。那么跳出这个圈转载 2013-12-26 21:13:13 · 2004 阅读 · 0 评论 -
BI集市模型规范
一个优秀的数据集市离不开一个良好的体系支撑,为了保证数据体系的可维护性、可扩展性、可延续性、可读性,模型设计应该统一设计思想、统一规范,下面是常见命名规范初版,其他同学可继续增加模型层次层次说明备注维度层维度信息表 明细层基础表 汇总层日、周、月原创 2015-06-24 14:19:23 · 2504 阅读 · 0 评论 -
Kettle变量使用
转载:http://blog.youkuaiyun.com/neweastsun/article/details/40188143 谢谢! kettle参数、变量详细讲解 kettle 3.2 以前的版本里只有 variable 和 argument,kettle 3.2 中,又引入了 parameter 概念;variable 即environment variables(环境变量或全局变...转载 2016-09-28 15:52:22 · 3727 阅读 · 1 评论 -
infa客户端连接服务端配置ip
C:\WINDOWS\system32\drivers\etc文件夹HOSTS 添加 ip 和 domain。转载 2012-09-07 13:42:21 · 1082 阅读 · 0 评论 -
kettle 转换控件翻译
转载:http://hi.baidu.com/zpf912/blog/item/4f69ca83a29e2b9bf703a64e.html官网:http://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+Steps1.Transform=转换Dummy Plugin=空操作=这是一个空的测试步骤2.Input转载 2012-03-07 16:28:24 · 7444 阅读 · 0 评论 -
ETL 介绍
http://blog.youkuaiyun.com/xiao_feng123/article/details/3112361 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤转载 2012-03-07 10:55:30 · 1172 阅读 · 0 评论 -
ETL架构师面试题
1. What is a logical data mapping and what does it mean to the ETL team?什么是逻辑数据映射?它对ETL项目组的作用是什么?答:逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存转载 2012-03-26 16:09:30 · 2716 阅读 · 0 评论 -
ETL四个阶段
数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取(extract)、清洗(clean)、一致性处理(comform)和交付(delivery),简称为ECCD。1.抽取阶段的主要任务是: 读取源系统的数据模型。 连接并访问源系统的数据。 变化数据捕获。 抽取数据到数据准备区。2.清洗阶段的主要任务是转载 2012-03-26 15:58:52 · 4825 阅读 · 0 评论 -
浅析ETL过程中的元数据
元数据是ETL项目组面对的一个非常重要的主题,对于整个数据仓库项目也是非常重要的一部分。对于元数据的分类和使用没有很确定的定义。 通常来说,我们可以把元数据分为三类,分别为业务元数据(Business Metadata),技术元数据(Technical Metadata)和过程处理元数据(Process Execution Metadata)。 业务元数据,是从业务的角转载 2012-03-26 15:59:43 · 1398 阅读 · 0 评论 -
元数据与数据字典的关系
从广义角度讲,数据字典应该隶属于元数据。 当然从一般意义讲,元数据主要是关于数据的数据,其是用来描述数据精度,数据来源,数据投影坐标体系,数据采集生产方式,数据生产时间,数据主要生产工艺等信息,数据格式说明,数据使用范围注解等等。有了元数据,在信息共享时就有了相关说明保障,就类似于药物说明书中相关说明一样。 数据字典已经可以看为是数据本身了,其通常主要是用来解释数据表、数据字段等数据结构意义转载 2012-03-28 16:58:51 · 4401 阅读 · 0 评论 -
[Installation and Configuration][Informatica 8.6.1][Windows 2003] Informatica服务器端及客户端安装配置
转载: http://kb.cnblogs.com/a/2337306/作者:wangyicarter 来源:博客园 发布时间:2012-02-03 16:45 阅读:42 次 原文链接 [收藏] 介质:Informatica 8.6.1 win32系统:Windows Server 2003 32bit 【安装服务器端】双击安装批处理文件转载 2012-03-12 15:48:55 · 5996 阅读 · 0 评论 -
理解事实表和纬度表
事实表就是按某个分析领域组合的数据表 纬度表则是这个领域上的分析指标的组合表 简单的说: 1、事实表就是你要关注的内容; 2、维表就是你观察该事物的角度,是从哪个角度去观察这个内容的。 例如,某地区商品的销量,是从地区这个角度观察商品销量的。事实表就是销量表,维表就是地区表。原创 2012-04-08 12:29:13 · 2053 阅读 · 0 评论 -
(Kettle)合并记录步骤
转载: http://blog.itpub.net/post/37422/464323该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。需要设置的参数:旧数据来源:旧数据来源的步骤新数据来源。新数据来源的步骤标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种。1转载 2012-04-19 11:45:00 · 20004 阅读 · 5 评论 -
Informatica的Repository该如何备份呢?
1.使用界面备份:登录Informatica PowerCenter Administrator Console,选中Repository后,在Actions下选择Back Up Contents,按照界面提示进行备份。2.使用pmrep命令备份,并可以结合计划任务,实现定时备份:首先来看pmrep命令的相关帮助:C:>pmrep help connectUsage: pmre转载 2012-07-04 11:30:20 · 3567 阅读 · 0 评论 -
shell循环etl跑历史数据
#!/bin/shif [ ! -z $1 ]then file_name="$1"else echo "输入执行文件路径!" exitfiif [ ! -z $2 ]then start_date=`date --date="${2}" +%Y-%m-%d`else start_date=`date -d'-1 day' +%Y-%m-%原创 2017-06-23 17:37:18 · 1192 阅读 · 0 评论