ETL&&UDF简介
一、ETL简介
1、ETL定义
英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。
目标
数据优化。以最小代价(包括对日常操作的影响和对技能的要求) 将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据
ETL的前提
确定ETL范围
通过对目标表信息的收集,确定ETL的范围
b) 确定解决方案
抽取分析、变化数据的捕获、目标表的刷新策略、数据的转换及数据验证
ETL 过程中我们主要用到三个 Teradata 工具:
Fast Load / Multi Load (较少):将源数据文件导入到数据库 Stage 区
BTEQ:调用SQL执行转换过程
5、DW Automation 在整个过程中起到调度、控制和监视的作用,当相应控制文件到达后,它根据配臵负责调用相应的作业。
6、ETL总体处理过程如下:
a) Data Pump 从 Data Source 中抽取数据形成 Data Files;
b) Data Files 被 ETL Server 上的接收进程 FTP 到 File Directory;
c) 调用Fastload/MultiLoad将 Data Files 导入到 PD_STAGE;
d) 通过 BTEQ 调用 SQL 转换到目标库P