使用 Kettle 连接动态分库

原创已于 2025-06-26 14:10:30 修改 · 4.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#kettle

于 2016-12-26 09:36:29 首次发布

Pentaho Work with Big Data 专栏收录该内容

30 篇文章

订阅专栏

本文介绍如何在Kettle中实现动态数据库连接，通过使用变量和JavaScript步骤生成符合日期格式的数据库名，实现在运行时动态选择数据库的目标。这种方法适用于每天新建以日期命名的MySQL数据库场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、问题提出

在一个数据仓库应用中，每天新建一个 MySQL 数据库，以当天日期命名，如 d_p20161201、d_p20161202 等，并使用 Kettle 连接这些数据库做数据清洗和 ETL 工作。由于数据库是用脚本每天动态生成的，Kettle 如何连接动态分库呢？

二、解决方案

建立数据库连接，在数据库名称中引入变量。此时是无法连接到数据库的。
建立转换，用 JavaScript 步骤设置上一步引用的变量，作为数据库名称中的日期部分。
建立作业，在开始后首先调用上一步建立的转换，后续的转换或作业即可正常使用第 1 步建立的数据库连接。

三、验证步骤

1. 建立测试数据库表

create database if not exists d_20161225;
use d_20161225;
drop table if exists t1;
create table t1 (a int);
insert into t1 values (101),(102);
commit;

2. 新建一个转换，保存为set_dbname.ktr。

3. 建立数据库连接如下：

如图所示，在“数据库名称”中引用了一个变量 ${current_date}，此时该变量还没有定义。如果测试数据库连接会报以下错误：

4. 将 mydb 设为共享

5. 编辑 set_dbname 转换如下：

该转换由三个步骤组成，分别如下面三张图所示：

“生成记录”生成一条记录，在数据流中存储变量值。

“JavaScript”用来生成符合日期格式的字符串。

“设置变量”给变量赋值。

6. 新建一个转换如下，保存为 table_output.ktr。

此转换只有两个步骤，用来测试数据库输出，分别如下面两张图所示：

“表输入”查询 t1 表的数据。

“文本文件输出”将表数据存储到一个 txt 文件中。

7. 新建一个作业，调用前面的建立的两个转换，保存为 connect_db.kjb。

8. 执行作业

9. 查看输出文件的内容，如下图所示：

正确查询出表数据。

10. 此时再测试 mydb 数据库连接，可以成功。

四、总结

本实验在以下两点进行了尝试：

使用 JavaScrip t步骤给变量赋值，这种在 Kettle 中编程的方式，能够实现非常复杂的应用逻辑。
数据库连接可以在运行时动态引用变量，这给实现统一的 ETL 调度提供了一种可能性。

先设置变量并赋值，然后在后面的步骤或作业项中使用变量，这是一种通用的方法。通过在 Kettle 中进行程序设计，大大增强了 Kettle 的功能。

参考：

http://stackoverflow.com/questions/23491072/pass-db-connection-parameters-to-a-kettle-a-k-a-pdi-table-input-step-dynamically