在 Kettle 里使用参照表进行数据校验（流查询实现）

wzy0623

已于 2025-06-26 14:44:50 修改

阅读量1.6w

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Pentaho Work with Big Data 文章标签： kettle

于 2016-12-26 16:10:19 首次发布

本文链接：https://blog.youkuaiyun.com/wzy0623/article/details/53886902

Pentaho Work with Big Data 专栏收录该内容

30 篇文章

订阅专栏

本文介绍在 Kettle 里使用参照表进行数据校验的方法。以城市和邮政编码查询为例，先从邮政编码提取数字，用流查询从参照表查城市名，设置查询失败默认值。再用 Jaro - Winkler 匹配算法检查，最后做相反校验判断错误所在。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参照表一个常见的用途就是做数据的查询和检验。提供一个输入字段，如果输入字段里的值没有匹配上，就给对应的数据行做一个错误标志。下面使用城市和邮政编码查询做个例子，演示如何使用计算器步骤和查询步骤来判断地址和邮政编码是否匹配。完整的转换如下图：

首先，需要一些输入数据，本例使用了“自定义常量数据”步骤，并添加一些测试数据作为输入，如下图：

第一个清洗步骤就是从邮政编码里提取数字，要使用计算器步骤。在计算器步骤选择“Return only digits from string A”,新增加一个字段保存这些数字，字段名使用像 PC4_1 这样有业务含义的字段名。然后就需要一个参照表。这里也是用“自定义常量数据”步骤来模拟一个参照表，如下图：

根据 PC4_1 字段里的四位数字，再使用“流查询”步骤从参照表中查询城市名称。为了后面再处理没有查询到的数据，建议在查询失败时，使用一个容易识别的默认值，下图显示了完整的流查询步骤，这里设置的查询失败的默认值是“***unknown***”。

这里设置的默认值的前缀和后缀都是***，这样设置有两个目的：首先，检查数据的时候比较容易找到这些异常数据；其次，查询后在模糊匹配原始输入的城市名时，这个默认值不会和原来的任何城市名有相似度。后面模糊查询的目的主要是为了检查一些拼写或完整性错误。再使用另一个计算器步骤，把 City 和 RefCity 作为字段 A 和字段 B，使用 Jaro-Winkler 匹配算法，把新生成的字段命名为 cityscore。此时预览数据，可以看到如下图所示的结果。