kettle篇: 增量更新
- 为什么要使用增量更新呢?想象一下,巨量数据中,每天变化的只是其中一小部分。如果每次都全量更新,那无疑是对时间和资源的极大浪费。
增量更新可以做到聪明地只处理那些发生变化的数据,确保我们既能保持数据的时效性,又不必为不必要的操作买单。
- 场景描述
有两张数据表,tablea(源表),tableb(目标表),存在不同的数据库中,现需要使用kettle作为ETL工具,将tablea里的数据抽取到tableb里。
tablea:
tableb:
一、 建立作业和转换
二、 转换1:设置变量
增量更新的逻辑:获取tableb的最大id,sql获取tablea中大于这个id的行进行插入更新。
- 在设置变量的转换中添加表输入对象]
- 设置好数据库连接
- sql获取tableb的最大id
1- 添加设置变量组件
2- 字段名称