高效改进！防止DataX从HDFS导入关系型数据库丢数据

jzy3711

已于 2024-10-23 17:44:19 修改

阅读量1.7w

点赞数 8

文章标签： hdfs 数据库 hadoop

于 2024-10-23 17:42:42 首次发布

本文链接：https://blog.youkuaiyun.com/jzy3711/article/details/143189912

版权

在这里插入图片描述

高效改进！防止DataX从HDFS导入关系型数据库丢数据

针对DataX在从HDFS导入数据到关系型数据库过程中的数据丢失问题，优化了分片处理代码。改动包括将之前单一分片处理逻辑重构为循环处理所有分片，确保了每个分片数据都得到全面读取和传输，有效提升了数据导入的可靠性和效率。这些改动不仅解决了丢数据的问题，还显著提高了处理多分片数据的性能。

背景

我们数据中台设计，数据同步功能是datax完成，在orc格式时datax从hdfs导数据到关系型数据库数据丢失，而在textfile格式时丢失数据，当文件超过250M多时会丢数据。因想使用orc格式节省数据空间，提高spark运行效率，需要解决这个问题。

问题

在这里插入图片描述

只读取了256M 左右的数据，数据条数对不上，导致hdfs，orc格式导入数据到pg，mysql等关系型数据库，数据丢失。

解决

修改hdfsreader/src/main/java/com/alibaba/datax/plugin/reader/hdfsreader/DFSUtil.java

问题代码

 InputSplit[] splits = in.getSplits(conf, 1);

                RecordReader reader = in.getRecordReader(splits[0], conf, Reporter.NULL);
                Object key = reader.createKey();
                Object value = reader.createValue();
                // 获取列信息
                List<? extends StructField> fields = inspector.getAllStructFieldRefs();

                List<Object> recordFields;
                while (reader.next(key, value)) {
   
                    recordFields = new ArrayList<Object>();

                    for (int

最低0.47元/天解锁文章