DataX从SqlServer同步数据到Hive数据错乱问题

数据分析记事本

已于 2022-09-30 11:15:22 修改

阅读量1.7k

点赞数

分类专栏： DataX 文章标签： hive hadoop 数据仓库

于 2022-09-30 11:09:26 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_49285457/article/details/127119861

版权

DataX 专栏收录该内容

1 篇文章

订阅专栏

博客介绍了在使用DataX从SqlServer同步数据到Hive时遇到的数据拆分问题，原因是源数据含有Hive的分隔换行符。解决方案包括更改Hive的建表语句，采用OrcSerde和ORC文件格式，并在DataX的hdfswriter中调整为ORC格式及启用压缩。经过修改，数据同步恢复正常。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在用DataX从SqlServer同步数据导Hive的时候，发现数据会发生拆分错乱的问题，本来应该在一行记录里的内容，被拆分成了两行记录。第一行后面的内容全部为空，因此判断应为分隔符的问题。即源数据内容中含有Hive分隔换行符，因此在将源数据拆分的时候，识别为了两行内容。

解决方法：

Step1：Hive中的建表语句，由原来的

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
stored as textfile

改为了

ROW FORMAT SERDE
    'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT
    'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
OUTPUTFORMAT
    'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
location '/gg_original/ods/ods_bas_prd_fashion/'
TBLPROPERTIES('orc.compress'='snappy'

Step2： DataX中的hdfswriter中，将原来的