sqoop job如果想使用去重功能可以设置check-column xx-id
一般表里的id是自增的,可以设置id。
第一次执行这个sqoop job ,可以在hdfs文件中找对应位置,看到数据,也能load到hive表中。
那么load之后。再执行这个sqoop job,hdfs文件中就看不到数据了。更不可能load到hive中。这就能表现它的去重性!!!
第二次执行sqoop job其实有提示的,比如:
第二次执行的时候它已经说了,没有更新新的行。因为在我的sqoop job设置了
check-column log-id,而mysql的log_id是自增的,不可能重复。保证了不重复。
sqoop job创建增量表的去重特性
最新推荐文章于 2024-01-14 06:00:00 发布