ETL基础操作指南
1. Kettle中的转换与作业
1.1 转换的核心地位
转换是Kettle中定义数据操作的关键对象,通常一个作业会包含一个或多个转换。转换由一系列步骤组成,步骤是对数据执行的操作,不仅限于数据处理,还包括与变量、文件交互等。Kettle中有数十种不同的步骤,按功能可分为输入、输出、转换、实用流程、脚本编写、查找、连接和大数据步骤等。
| 步骤类别 | 功能描述 |
| ---- | ---- |
| 输入 | 从数据库和外部文件读取数据 |
| 输出 | 将数据写入数据库和外部文件 |
| 转换 | 修改数据 |
| 实用流程 | 如过滤行等操作 |
| 脚本编写 | 可直接在步骤中指定SQL、JavaScript或Java代码 |
转换需要按特定顺序放置在画布上,并进行链接,使前一个转换的输出成为后一个转换的输入。有时可以指定多个输出,PDI会询问是在后续任务中复制输出,还是将输出复制到每个后续步骤。还可以有条件输出,根据布尔条件将输入分为两个输出。
1.2 作业的组织方式
作业是转换和链接操作的容器,通过在作业画布上拖放步骤来指定。作业视图中的步骤类型与转换视图有所不同,主要步骤类别包括通用、邮件、文件管理、条件(用于流程控制)、脚本编写、批量加载、大数据、建模、XML、实用工具、文件传输和文件加密等。
每个作业需要有一个起点,通常在末尾使用成功步骤,调试时可使用虚拟步骤。设计作业时,先从通用组中拖放开始步骤到画布,然后添加转换步骤并进行链接。链接步骤的方法有两种:一是将鼠标移到步骤上,等待一秒后点击“退出”标志,再拖动鼠标到下
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



