背景介绍
公司要搭建数据中台,离线数据采集就是其中重要一环,目前是基于alibaba的datax组件来搞得。datax的优势,支持多源数据库之间相互同步,日志信息非常清楚,方便定位错误。而且基于datax二次开发也比较简单(实现job,task接口)。
目前的缺点,对于hive的支持力度没那么大,目前官方只实现了hdfs的读写。对于如何基于datax写入hive本文做了一些自己尝试的方法。
解决思路
基于spark,flink框架
由于spark,flink代码,只需要实现数据的读入转化为相应的数据结构,就可以通过spark-sql,flink-sql进行多源的数据处理。我们之前的做法是直接通过spark,flinkjar 包的方式,通过传入一个json路径,实现的同步。
但是datax的插件的开发,是reader,writer接口独立开发的,而且数据也是一条条处理的,那么spark肯定不行了。flink的话,需要初始化flink环境,再去实现一个从接口拿去数据的sink,最后souce到hive上,感觉太过于笨重了。
基于flume hcatalog(推荐)
flume支持把数据实时写入hive表,但是hive表必须是事务表。我这边通过hive.hcatelog写入了1千万数据(两列),几秒就写完了。因此感觉这个方案超级可行。
hdfs导入hive
将hdfs的文件导入hive,datax实现了hdfs的写入,只需要加一个hdfs导入hive就ok了,这个时候通过jdbc连接hive,执行load命令就ok了。
需要修改源码的地方,datax在写入hdfs的时候,必须要一个存在的hdfs目录。指定的分区路径如果不存在就需要手工创建一个。在task实现完毕后,通过jdbcload进hive。
解决方案(hdfs导入hive)
第一步下载datax源码链接
解压修改hdfswrite插件源码

@Override
public void prepare() {
//增加新增目录
LOG.info(String.format("没有目录,咱们就创建目录-------[%s]",path.toString()));
Path add_path=new Path(path);
if (!hdfsHelper.isPathexists(path)) {
hdfsHelper.addDir(add_path);
}
//若路径已经存在,检查path是否是目录
if(hdfsHelper.isPathexists(path)){
if(!hdfsHelper.isPathDir(path)){
throw DataXException.asDataXException(HdfsWriterErrorCode.ILLEGAL_VALUE,
String.format("您配置的path: [%s] 不是一个合法的目录, 请您注意文件重名, 不合法目录名等情况.",
path));
}
//根据writeMode对目录下文件进行处理
Path[] existFilePaths = hdfsHelper.hdfsDirList(path,fileName);
boolean isExistFile = false;
if(existFilePaths.length > 0){
isExistFile = true;
}
/**
if ("truncate".equals(writeMode) && isExistFile ) {
LOG.info(String.format("由于您配置了writeMode truncate, 开始清理 [%s] 下面以 [%s] 开头的内容",
path, fileName));
hdfsHelper.deleteFiles(existFilePaths);
} else
*/
if

最低0.47元/天 解锁文章
1754

被折叠的 条评论
为什么被折叠?



