streamsets data collector新增upsert 4 mysql
1.背景简介
由于sdc缺少由kudu到mysql的upsert操作,前期通过spark-sql定制化开发了一套数据同步程序,但是由于spark-sql同步大量数据,效率十分低下,现基于sdc源码定制化了支持mysql的upsert数据的导入插件。
2.部署步骤
2.1 cm界面操作

找到如上图的位置添加如下相应配置
sdc-security.policy 的 Data Collector 高级配置代码段(安全阀):
// custom stage library directory
grant codebase "file:///opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR-3.8.1/user-libs/-" {
permission java.security.AllPermission;
};
// user-defined external directory
grant codebase "file:///opt/sdc-extras/-" {
permission java.security.AllPermission;
};
sdc-env.sh 的 Data Collector 高级配置代码段(安全阀):
export USER_LIBRARIES_DIR="/opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR-3.8.1/user-libs"
export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/sdc-extras"
其中容易遗忘的一步:(登录sdc所在服

本文档介绍了如何为Streamsets Data Collector添加自定义插件以支持MySQL的upsert操作。由于默认的SDC不支持Kudu到MySQL的upsert,因此通过源码定制了一个插件。部署过程包括CM界面配置、上传驱动包和插件,以及pipeline的配置。
最低0.47元/天 解锁文章
4552

被折叠的 条评论
为什么被折叠?



