在 Kettle 里使用参照表进行数据校验(子转换实现)

博客围绕数据整合展开,以性别编码为例,指出不同系统编码不同,需统一编码规范并建立主表,满足源系统值映射及映射到唯一值的需求。还介绍了主转换和子转换流程结构,子转换中流查询步骤要设置条件、返回字段及默认值,以处理 NULL 和未知值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        有一种参照表叫数据确认主表。性别编码就是这种参照表的例子。有的系统使用字母 M、F 和 U,分别代表男、女、未知;有的系统使用 NULL 来代表未知的性别;有的系统使用 Male 和 Female 代表男、女;而有的系统则使用完全不同的编码,如 0(男)、1(女)或 0(未知)、1(男)、2(女),等等。还有更复杂的情况,有的系统使用 C 代表儿童,使用 F 代表父亲,M 代表母亲,各种变化和组合都有可能。要把从这些来源的数据整合到一起,要有一套统一的编码规范,然后把已有的编码映射到规范的编码上。使用单一的查询表比每个系统都有一个查询表要更好,便于维护。这里要满足两个基本的需求:

  • 源系统中的每个可能的值都需要映射。
  • 要映射到唯一的一组值。

        基于前面说的性别的例子,需要建立下面的主表。ref_code 和 ref_name 字段,是要获取的标准数据,src_system 字段是数据来源于哪个应用或系统,src_code 字段包含了这个系统里可能的值。

create table lkp_codes (  
    id int primary key,  
    ref_code varchar(1),  
    ref_name varchar(10),  
    src_system varchar(10),  
    src_code varchar(10)  
)  engine=myisam;  
  
insert into lkp_codes values(1,'M','Male','Sales','1');  
insert into lkp_codes values(2,'F','Female','Sales','2');  
insert into lkp_codes values(3,'M','Male','Web','male');  
insert into lkp_codes values(4,'F','Female','Web','female');  
insert into lkp_codes values(5,'M','Male','CRM','F');  
insert into lkp_codes values(6,'F','Female','CRM','M');  
insert into lkp_codes values(7,'U','Unknown','CRM','C');  

        为了便于查询,数据是以非正规的结构来组织。但这种结构适合要求,而且容易查询,根据源系统的名称和原始的数据,就能查询到标准的三个值:M、F、U。

        主转换流程的结构如下:

        要给子转换步骤定义一个变量,在映射步骤“参数”标签下设置变量。在这个例子里,把值为 Web 的变量传递给子转换 genderlookup。

        子转换流程的结构如下:

        在子转换里使用这个变量:

        子转换里的流查询步骤非常简单:只需设置好条件,输入数据的 src_code1 等于参照表的 src_code 字段,并指定要返回的字段即可。注意这里必须要设置一个默认值,来处理 NULL 和未知的值。完整的流查询步骤如下:

        说明:

        原始数据里可能会包含 NULL 值,但 NULL 并不是数据库里的一个真正的值。NULL=NULL 这样的比较条件也不会成功。这就是为什么没有把对 NULL 值的匹配放到参照表里,以及为什么在流查询步骤里一定要设置一个默认值的原因。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值