kettle常用组件学习总结:
1、增加常量组件:
可以用来设置默认值信息数据,作为个常量为后面的步骤使用;
2、获取系统信息组件:
可以用来设置当前的系统信息数据,一般用来获取时间信息;
3、值映射组件:
可以用来做值数据的替换,如男->1,女->0,也可设置不匹配时默认值;
4、excel导入组件:
4.1、文件页:
表格类型引擎为:Excel 2007 XLSX (Apache POI)。
文件目录,先 【浏览】 选择电脑中的excel文件信息,在点击 【增加】 按钮,需在下面选中的文件中出现目标excel地址。
4.2、工作表页:
获取工作表名称,将需要操作的工作表Sheet1或者其他的工作表添加进去。
4.3、字段页:
获取来自头部的数据字段,保留需要的数据列。
4.5、其他的默认即可。
5、选择/改名值组件:
在 【选择和修改】页可以进行流数据字段的字段名修改;
在【元数据】页,可以进行字段数据的格式化操作(如:对Date类型的数据进行日期的格式处理,只需要 字段名称 类型 格式 这三列数据进行修改即可)
6、字符串替换组件:
可以用来替换流数据中 特定字段 的值 的特定字符串信息。输入流是元字段,输出流是进行替换后的字段(类似改名操作),搜索是对字符串进行匹配,使用...替换是将搜索匹配的字符串信息进行替换,其他默认即可。
7、插入/更新 组件:
根据选择条件对数据进行比对,如果在数据库中则执行更新(可指定更新字段,也可不执行更新),如果不在数据库中则执行新增操作。
【用来查询的关键字】项,点右侧【获取字段】自动获取表信息字段,保留需要比较的字段信息,用表数据字段和流数据字段进行匹配,一般是用数据库中唯一主键id字段 进行 = 匹配操作
【更新字段】项,点右侧【获取和更新字段】,进行更新字段的【表字段】和【流字段】进行匹配,【更新】列Y,N代表是否执行字段更新。
8、样本行组件:
获取执行转换执行过程中错误信息数据的内容的。
在执行【表输出】、【插入/更新】主键等操作时,选中组件,右键单击,选择步骤错误处理设置(对【目标步骤】选样本行,【启用错误处理】勾选,【错误描述列】自定义一个名称,后面用于设置变量)。
选出样本行组件,拉错误处理步骤连接线。【行范围】选择1即可。
注意点:在出现错误信息后,可能是sql语法报错,但是这时候报错提示可能含有 '' 字符串,导致在将异常信息插入日志表中时,二次报错,所以这时需要进行多做一步字符串替换操作,将 ' 替换为 "
9、设置环境变量组件:
将流中的字段信息设置为变量,供后面的操作使用。需注意在使用变量时,需在脚本中勾线变量替换,或者替换SQL语句里的变量,否则变量值不会被替换。
10、数据库查询组件:
一般进行数据库的连接查询操作。
【查询所需的关键字】行,【表字段】为当前要查询的表中字段,【比较操作符】为匹配规则,【字段1】为流中的字段数据信息(即关联主键)。
【查询表的返回值】行,选择查询出需要的表字段信息。
11、增加序列组件:
为插入的表数据信息生成一个有序的增长的序列值。
【值的名称】:生成的序列后到数据流后的名称;
【使用数据库生成序列】:待研究;
【使用转换计数器来生成序列】:勾选使用计数器来计算sequence即可。
12、合并排序组件:
对两张表数据的记录进行关联操作,类似sql中的左右连接(主要用于垮库的表数据连接)
【第一个步骤】:用于关联的主表数据
【第二个步骤】:用于关联的子表数据
【连接类型】:左连接,右连接,全连接
【第一个步骤的连接字段】:进行连接的外键主键
【第二个步骤的连接字段】:进行连接的主键
13、过滤记录组件:
用于过滤查询数据中的不需要的数据信息,根据下面的条件进行做判断,通过【发送true数据给步骤】来指定筛选后的数据的操作。
组合使用效果:
14、空操作(什么也不做)组件:
一般用来做过滤记录的不需要数据的分支指向。
15、复制记录到结果组件:
用于存储查询出的数据信息,如excel的导入结果,sql查询的结果等。一般在同一个 作业 中的不同 转换 中使用。
16、从结果获取记录组件:
从已经设置好的【复制记录到结果】组件中取去结果数据信息。一般在同一个 作业 中的不同 转换 中使用。
17、作业:
一个 作业 可以有多个 转换,也可以嵌套 作业 执行。注意事项:一个作业的开始第一个组件一定是【start】,结束后可以添加【成功】组件。
18、作业的for操作:
一个(作业1)中,从(作业1)的一个转换中读取需要进行批量操作的数据信息,指向一个新建的(作业2),在(作业2)中执行单数据的操作。注意事项:(作业2)中的设置【执行每一个输入行】必须要勾选上。