转换是kettle最主要也是最常用的部分,它由步骤和连线组成,划重点了:
1、每一个步骤是一个独立线程,转换初始化时,每一个步骤都要初始化(不管有没有数据经过),比如连接数据库之类的工作,转换各步骤并行多线程执行。
2、转换从“输入”(kettle输入下面的步骤)开始(有几个特殊的),不是什么步骤都能放在第一步的,可以同时有多个输入步骤,多个数据流程。如图:

3、转换步骤间传递的数据,是一个类似数据库表一样数据集合,一条一条的通过连线输出到下一步骤。
4、多个步骤合到一个步骤(非合并步骤),如下图,此时的三个输入数据合并在一个步骤里,相当于三条select语句union在一起,要求必须字段名称和类型相同,三个数据集合会union在一起,但数据顺序不能保证。

5、一个步骤分到多个步骤,一种复制,一种分发,图标上有区别,注意分发是轮询发送,复制常用,就是再复制一份,好理解一些。如图:

本文深入解析Kettle转换机制,涵盖步骤线程、数据输入、输出、合并与分发等核心功能,适合ETL开发者深入了解。
最低0.47元/天 解锁文章
221

被折叠的 条评论
为什么被折叠?



