Kettle入门之五 Kettle应用场景(增量插入和更新)


在此,我们主要对示例3进行说明。

为方便演示,我们在数据库A和数据库B中分别创建表userA和表userB。最终目标为将数据表userA中的数据插入到数据表userB中。

create database testA;
use testA;
create table `userA`(
    `id`int(10) primary key,
    `name` varchar(50),
    `age` int(3)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
insert into userA values(1,'张三',20);
insert into userA values(2,'李四',21);
insert into userA values(3,'王五',22);

create database testB;
use testB;
create table `userB`(
    `idB`int(10) primary key,
    `nameB` varchar(50),
    `ageB` int(3)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;

操作步骤

1、运行软件,进入主界面。点击左上角的 文件 → 新建 → 转换新建一个转换,并保存,转换的后缀名为ktr。

2、点击面板左侧的 主对象树 ,选择 DB连接 右键,选择 新建 或 新建数据库连接向导 分别创建对数据库A和数据库B的连接。

注意: 如果在点击测试连接时出现下图所示错误,检查我们的安装目录下的lib中是否有对应数据库连接的jar包文件(如mysql的jar文件:mysql-connector-java-5.1.6-bin.jar),下载对应的jar,放到lib文件夹下,重启kettle软件,即可。

点击面板左侧的 核心对象 ,选择 输入文件夹下的 表输入 并把它拖到右侧的编辑区中

4、双击编辑区的“表输入”图标,编辑数据输入源。

5、点击面板左侧的 核心对象 ,选择 输出文件夹下的 插入/更新 并把它拖到右侧的编辑区中,按住 shift 画线连接 “表输入”。

6、双击编辑区的“插入/更新”图标,编辑控件内容。

用来查询的关键字,此处只选择主键id,表示这里按照id查询,如果此id存在,则更新数据,若不存在则插入数据。

7、到这里,我们最简单的一个插入/更新数据的转换已经建立完成了,点击“校验这个转换”,Kettle会校验并给出简单的报告。没有任何问题。

8、点击“运行这个转换”,选择“本地执行”,点击“启动”来执行这个转换。

9、转换成功后,我们可以在控制台中看到如下信息。检查本地数据库,数据库A的userA表中的数据已经全部被插入更新到了数据库B的userB表中。

注:此示例适用于插入和更新目标源数据,无法将已经源表中的删除的记录同步到目标表中

至此,Kettle的更新插入就基本完成了


上一章:Kettle入门之四 Kettle定时任务(GUI)https://blog.youkuaiyun.com/qq_43015592/article/details/107469813 

下一章:Kettle进阶之一 通过接口API链接取到本地数据库https://blog.youkuaiyun.com/qq_43015592/article/details/107492562

<think>好的,我现在需要帮助用户寻找关于PDI ETL开发工具的信息教程。首先,我需要确认PDI是什么。根据用户提供的引用[3],PDI是Pentaho Data Integration的缩写,也就是Kettle,它是一个开源的ETL工具,用Java编写,最初由Matt Casters开发,后来并入Pentaho,现在属于Hitachi Vantara。 接下来,用户需要教程功能介绍。我应该先整理PDI的核心功能,比如图形化界面、转换与作业、插件扩展等,这些都是引用[2][3]提到的。然后,关于教程,用户可能需要入门指南、数据转换实例、调度管理性能优化等内容。根据引用[1],官网社区资源是主要来源,所以应该推荐官方文档社区论坛。 还要注意用户提到的引用来源,确保回答中正确引用。例如,Kettle作为VPL属于引用[2],版本历史属于引用[3],下载链接来自引用[1]。需要将这些引用自然地插入到相关内容后面。 可能用户是刚接触ETL开发,需要从安装到进阶的全面指导。因此,回答应该分步骤,结构清晰,先介绍PDI,再讲功能,然后教程资源,最后相关问题。同时,生成的相关问题要围绕PDI的使用、优化、对比应用场景,帮助用户深入探索。 需要检查是否有遗漏的重要信息,比如架构设计或企业版与社区版的区别,这些在引用[1][3]中有提到,应该包含在功能介绍中。此外,确保所有技术术语正确,比如ETL、转换、作业等,必要时简单解释。 最后,确保回答符合系统级指令,使用正确的中文,数学公式格式(如果有的话),但这里可能涉及较少数学内容。不过,如果有示例代码或配置文件,需要用代码块格式,但用户问题中未提及代码,所以可能不需要。但用户示例中的Python代码提示了可能的结构,所以如果有操作步骤,可以用类似的代码块展示,但PDI更多是图形化操作,可能需要描述步骤而非代码。</think>关于PDI(Pentaho Data Integration)的开发工具使用教程功能介绍如下: ### 一、PDI(Kettle)核心功能 1. **图形化ETL开发** PDI提供可视化设计界面,通过拖放组件(如输入、转换、输出)构建数据处理流程,符合可视化编程语言(VPL)特性[^2]。 2. **转换与作业设计** - **转换(Transformation)**:定义单次数据流操作,例如从数据库读取数据并清洗。 - **作业(Job)**:编排多个转换或脚本,支持定时执行条件分支[^3]。 3. **多数据源支持** 支持数据库(MySQL/Oracle)、文件(CSV/Excel)、NoSQL、API等数据源的连接与集成。 4. **插件扩展机制** 可通过插件扩展功能,例如集成机器学习库或自定义数据处理组件。 5. **企业级特性** 企业版提供集群执行、监控仪表盘、安全审计等功能(社区版功能有限)[^1]。 --- ### 二、PDI使用教程资源 1. **官方文档与社区** - 社区版下载地址:https://sourceforge.net/projects/pentaho/files/ [^1] - 企业版试用地址:https://community.hitachivantara.com/s/article/downloads [^1] - 官方教程:安装后自带示例转换文档,路径为`docs/`目录。 2. **基础入门步骤** 1. 安装JDK并配置环境变量(PDI基于Java)。 2. 下载PDI社区版,解压后运行`spoon.sh`(Linux/Mac)或`spoon.bat`(Windows)。 3. 新建转换,添加“表输入”步骤连接数据库,配置SQL查询。 4. 使用“字段选择”清洗数据,最后通过“表输出”写入目标表。 3. **实战案例推荐** - 数据清洗:去除重复值、标准化日期格式。 - 数据同步:增量更新不同数据库的表。 - 日志分析:解析JSON日志并聚合统计。 --- ### 三、PDI适用场景 - **数据仓库构建**:整合多系统数据到统一存储。 - **报表自动化**:定时生成业务报表并邮件推送。 - **云端数据迁移**:支持AWS/Azure云存储的读写适配器。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值