PDI(Kettle)介绍

feizhuliuss

已于 2024-12-25 11:01:20 修改

阅读量108

点赞数

分类专栏： ETL 文章标签： linux 网络 java

于 2022-10-11 16:09:06 首次发布

本文链接：https://blog.youkuaiyun.com/feizhuliuss/article/details/127263949

版权

ETL 专栏收录该内容

1 篇文章

订阅专栏

Kettle中文名叫水壶，纯Java编写，可在Windows、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。

核心组件

1、Spoon

可视化集成开发环境，通过图形接口，用于编辑作业和转换的桌面工具

2、Kitchen

作业的命令行运行程序，用于执行由Spoon编辑的作业

3、Pan

转换的命令运行程序，和Kitchen一样通过Shell脚本来调用

4、Carte

轻量级HTTP服务，接收远程调用，实现远程执行作业和转换。与Kitchen不同，Carte是一个后台运行服务，而Kitchen仅仅是一个执行命令，运行完一个作业后就退出。
Carte可用于搭建集群，将单个作业或转换进行分割，多节点上并行执行，最大化利用集群资源。其底层依赖Kitchen、Pan命令执行作业和转换

核心概念

Kettle中有两个核心概念：作业Job和转换Trans，其中作业完成整个工作流控制手段(串行)，转换完成针对数据的基础转换(并发)
在这里插入图片描述
Kettle执行流程

1、转换

转换包含一个或多个步骤，步骤之间通过跳(Hop)来连接，跳定义了一个单向通道，允许数据从一个步骤流向另一个步骤。在Kettle中，数据的单位是行，数据流就是数据行从一个步骤到另一个步骤的移动。
在这里插入图片描述

1.1 步骤(Step)

步骤是转换的基本组成部分，步骤将数据写到与之相连的一个或多个输出跳，再传送到跳的另一端的步骤。
步骤需要有一个名字，且这个名字在该转换中唯一。
在Kettle中，所有的步骤都以并发的方式执行，当转换启动后，所有的步骤都同时启动，从它们的输入跳中读取数据，并把处理过的数据写到输出跳，直到输入跳中不再有数据，就中止步骤的运行。当所有的步骤都中止了，整个转换就中止了。
一个步骤的数据发送可设置为轮流发送(分发)和复制发送(复制)，分发即将数据行依次发送给每一个输出跳；复制则是将全部数据行发送给所有的输出跳。

1.2 跳（Hop）

跳是步骤之间的连线，它定义了一个单向通道，允许数据从一个步骤向另一个步骤流动。跳实际上是两个步骤间被称为行集(rowset)的数据行缓存(行集大小可在转换的设置里进行自定义)。
当行集满了，向行集写数据的步骤将停止写入，直到行集里又有了空间。当行集空了，从行集读取数据的步骤停止读取，直到行集又有了可读的数据行(通过阻塞队列实现)。