datax如何支撑hive分区表

最新推荐文章于 2024-11-08 16:23:53 发布

原创

最新推荐文章于 2024-11-08 16:23:53 发布 · 6.3k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

背景介绍

公司要搭建数据中台，离线数据采集就是其中重要一环，目前是基于alibaba的datax组件来搞得。datax的优势，支持多源数据库之间相互同步，日志信息非常清楚，方便定位错误。而且基于datax二次开发也比较简单（实现job，task接口）。
目前的缺点，对于hive的支持力度没那么大，目前官方只实现了hdfs的读写。对于如何基于datax写入hive本文做了一些自己尝试的方法。

解决思路

基于spark，flink框架

由于spark，flink代码，只需要实现数据的读入转化为相应的数据结构，就可以通过spark-sql，flink-sql进行多源的数据处理。我们之前的做法是直接通过spark，flinkjar 包的方式，通过传入一个json路径，实现的同步。
但是datax的插件的开发，是reader，writer接口独立开发的，而且数据也是一条条处理的，那么spark肯定不行了。flink的话，需要初始化flink环境，再去实现一个从接口拿去数据的sink，最后souce到hive上，感觉太过于笨重了。

基于flume hcatalog（推荐）

flume支持把数据实时写入hive表，但是hive表必须是事务表。我这边通过hive.hcatelog写入了1千万数据（两列）,几秒就写完了。因此感觉这个方案超级可行。

hdfs导入hive

将hdfs的文件导入hive，datax实现了hdfs的写入，只需要加一个hdfs导入hive就ok了，这个时候通过jdbc连接hive，执行load命令就ok了。
需要修改源码的地方，datax在写入hdfs的时候，必须要一个存在的hdfs目录。指定的分区路径如果不存在就需要手工创建一个。在task实现完毕后，通过jdbcload进hive。

解决方案（hdfs导入hive）

第一步下载datax源码链接

解压修改hdfswrite插件源码

在这里插入图片描述

        @Override
        public void prepare() {

			//增加新增目录
            LOG.info(String.format("没有目录，咱们就创建目录-------[%s]",path.toString()));
            Path add_path=new Path(path);
            if (!hdfsHelper.isPathexists(path)) {
                hdfsHelper.addDir(add_path);
            }

            //若路径已经存在，检查path是否是目录
            if(hdfsHelper.isPathexists(path)){
                if(!hdfsHelper.isPathDir(path)){
                    throw DataXException.asDataXException(HdfsWriterErrorCode.ILLEGAL_VALUE,
                            String.format("您配置的path: [%s] 不是一个合法的目录, 请您注意文件重名, 不合法目录名等情况.",
                                    path));
                }


                //根据writeMode对目录下文件进行处理
                Path[] existFilePaths = hdfsHelper.hdfsDirList(path,fileName);
                boolean isExistFile = false;
                if(existFilePaths.length > 0){
                    isExistFile = true;
                }
                /**
                 if ("truncate".equals(writeMode) && isExistFile ) {
                 LOG.info(String.format("由于您配置了writeMode truncate, 开始清理 [%s] 下面以 [%s] 开头的内容",
                 path, fileName));
                 hdfsHelper.deleteFiles(existFilePaths);
                 } else
                 */
                if

最低0.47元/天解锁文章