数据重复是一个比较麻烦的问题,影响数据质量,这个问题困扰了我好一阵子,研究后,用以下方法解决。
首先是PDI导入前,在写入数据库之前增加一步Sort Rows来过滤数据,如果发现有重复的则只导入一条记录,用序列号和时间戳来检验数据唯一性,总体步骤如下:
数据库端的话,采用类似的方法,用indexs的方法,锁定序列号+时间戳为唯一值,这样如果有重复的话,数据也无法导入而报错,设置方法如下:
本文介绍了解决数据重复问题的有效方法,包括使用PDI在导入前通过SortRows进行数据过滤,确保序列号和时间戳的唯一性;并在数据库端设置唯一索引来避免重复数据的导入。
数据重复是一个比较麻烦的问题,影响数据质量,这个问题困扰了我好一阵子,研究后,用以下方法解决。
首先是PDI导入前,在写入数据库之前增加一步Sort Rows来过滤数据,如果发现有重复的则只导入一条记录,用序列号和时间戳来检验数据唯一性,总体步骤如下:
数据库端的话,采用类似的方法,用indexs的方法,锁定序列号+时间戳为唯一值,这样如果有重复的话,数据也无法导入而报错,设置方法如下:

被折叠的 条评论
为什么被折叠?