Sqoop 同步数据到mysql， Can't parse input data: '\N'

最新推荐文章于 2022-07-07 13:08:49 发布

原创最新推荐文章于 2022-07-07 13:08:49 发布 · 5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#hive

ERROR 专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍使用Sqoop从HDFS同步数据至MySQL的过程及注意事项，包括分区表和非分区表的处理，hive表格式要求，字段匹配及数据类型转换等问题。

Sqoop 同步数据到mysql

Sqoop 从hdfs 同步数据到mysql 是我们常常遇到的事情

同步分为分区表同步和非分区表同步

需要注意以下几点

1. hive 中的表必须是textfile ，不能是有parquet 等压缩方式的

2.hive 表如果是分区表，需要每次只能同步一个分区的数据到 mysql，

如果hive 有多个分区，只能写多个脚本，或者多个循环调度，或者将多分区表落地成一个非分区的临时表，进行同步

hive也可以同步分区表过去，只不过hive一次只能同步一个分区，hive 是文件形式的啊分区也只是目录文件，你一次只能指定一个目录不能一下子指定多个目录

3.对于mysql来说只是把数据（mysql不会在意这数据怎么来的）插到表里表是分区就按分区字段插不是分区就直接插

4.hive 推送到mysql 的时候，并不需要字段名字对应一致，只要字段个数一致，但是数据类型必须一致，否则会出现，且分区的那个字段在hive 中是伪列，推送的时候在mysql 中不能有。 \N 的错误

5、sqoop会将 hive 表中空值转换为\N ，如果MySQL这个字段是 int double 肯定存储不了\N，会报空值错误。

6、mysql 中 int double 等要注意hive 的字符长度。

下面写法可以

create table dm.tmp_ae_mid_payback_detail_new as
select * from dm.ae_mid_payback_detail_new

sqoop export -D mapred.child.java.opts="-Djava.security.egd=file:/dev/../dev/urandom" \
--connect "jdbc:/app?useUnicode=true&characterEncoding=utf8" \
--username "dr" \
--password "yyyy" \
--input-null-string '\\N' --input-null-non-string '\\N' \
--table amque_mid_payback_detail_new \
--export-dir /user/hive/warehouse/dm/dm_ae_mid_payback_detail_new \
--input-fields-terminated-by '\001' \

这个也可以，只不过只能推送一个分区，和伪列不可以推送

sqoop export -D mapred.child.java.opts="-Djava.security.egd=file:/dev/../dev/urandom" \
--connect "jdbc:/app?useUnicode=true&characterEncoding=utf8" \
--username "dr" \
--password "yyyy" \
--input-null-string '\\N' --input-null-non-string '\\N' \
--table amque_mid_payback_detail_new \
--export-dir /user/hive/warehouse/dm/amque_mid_payback_detail_new/partition_month='2018-11' \
--input-fields-terminated-by '\001' \