分隔符问题 | 使用sqoop将hive中的数据表导入MySQL数据库执行语句报错

博客记录了2024年1月4日Sqoop导出作业失败的情况,出现多个警告和错误信息。分析后考虑数据集分隔符问题,介绍了不同分隔符对Hive字段处理的影响,将分隔符换成默认“\001|”重新执行sqoop语句,最终导入成功。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

错误如下:

2024-01-04 13:17:47,113 WARN mapreduce.Counters: Group FileSystemCounters is deprecated. Use org.apache.hadoop.mapreduce.FileSystemCounter instead
2024-01-04 13:17:47,132 INFO mapreduce.ExportJobBase: Transferred 0 bytes in 67.7846 seconds (0 bytes/sec)
2024-01-04 13:17:47,147 WARN mapreduce.Counters: Group org.apache.hadoop.mapred.Task$Counter is deprecated. Use org.apache.hadoop.mapreduce.TaskCounter instead
2024-01-04 13:17:47,147 INFO mapreduce.ExportJobBase: Exported 0 records.
2024-01-04 13:17:47,147 ERROR mapreduce.ExportJobBase: Export job failed!
2024-01-04 13:17:47,175 ERROR tool.ExportTool: Error during export: 
Export job failed!
    at org.apache.sqoop.mapreduce.ExportJobBase.runExport(ExportJobBase.java:445)

此时我们应该回想一下数据集分隔符的问题:

  1. \001是起始符(Start of Heading)的ASCII码表示。它通常用于分隔文本文件中的字段或记录。当使用\001作为分隔符时,Hive会将每行的第一个非空字段作为第一个字段,第二个非空字段作为第二个字段,以此类推。这意味着字段的顺序与原始文本文件中的顺序相同。

  2. \t是制表符,通常用于分隔文本文件中的字段。当使用t作为分隔符时,Hive会将每行按照指定的分隔符进行分割,并将分割后的结果作为不同的字段。这意味着字段的顺序可能与原始文本文件中的顺序不同。

因此,选择使用\001还是\t作为分隔符取决于你的需求。如果你需要保持字段的顺序与原始文本文件中的顺序相同,则应使用001作为分隔符;如果你不关心字段的顺序,则可以使用\t作为分隔符。

我们将分隔符换成默认"\001|"重新执行sqoop语句:

进入mariadb进行查看验证:

导入成功!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值