部分用法的官方链接:
https://streamsets.com/documentation/datacollector/3.21.x/help/index.html
中文站:
http://streamsets.vip/
streamsets没有内置的mysql驱动包,CDH版本则需要添加外部库,详见:
https://blog.youkuaiyun.com/kkHMou/article/details/115319697
一、单表同步
1、测试用表
mysql测试表:
id主键自增,其余字段varchar
kudu建表:
注:kudu的表字段必须都是存在的,不能和mysql一样设置虚拟自增主键,kudu字段默认大写也都转成小写
我自己使用的是impala-kuku,这里使用HUE界面进行建表
2、mysql配置
注意:mysql的驱动连接后面需要带上字符集设置
…?useUnicode=true&characterEncoding=utf-8
查询SQL:
“SELECT * FROM student WHERE id > ${OFFSET} ORDER BY id ”
streamsets自己会记录offset,单表同步需要根据表中某个不断增长的字段进行同步,固定写法
3、kudu配置
4、测试运行
测试运行并不会记录offset,注意如果测试通过将输出端的数据删除再start整个通道就行
kudu这边数据也进去了,说明通道正常。
5、开启管道
省略
二、实时同步
1、mysql开启binlog
实时同步需要mysql开启binlog服务
vim /etc/my.cnf
追加
server_id=999
log_bin=mysql-