sqoop2 从mysql导数到hdfs-优快云博客

本文链接：https://blog.youkuaiyun.com/u014231534/article/details/111226116

本文介绍了在升级Hadoop 3.3.0的过程中遇到的三个常见问题：权限设置、JDBC链接错误和缺失的jar包。作者详细讲述了如何配置proxyuser、修复用户jar文件路径问题，并分享了处理ClassNotFoundError的经验。最后，通过操作HDFS验证数据导入成功。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：https://blog.youkuaiyun.com/m_signals/article/details/53190965

https://blog.youkuaiyun.com/qq_24871519/article/details/86524349

Hadoop3.3.0，sqoop1.99.7，hive3.1.2，mysql5.7

其中遇到3个问题

1，GENERIC_HDFS_CONNECTOR_0007:Invalid input/output directory - Unexpected exception

user hadoop is not allowed to impersonate hadoop

网上一般让修改hadoop 配置文件core-site.xml, 加入以下配置：

<property>
  <name>hadoop.proxyuser.${Hadoop用户}.hosts</name>
  <value>*</value>
</property>
<property>
  <name>hadoop.proxyuser.${Hadoop用户}.groups</name>
  <value>*</value>
</property>

我实际上是这么配置的也会报错。后来重新格式化、重启集群后就不报错了。格式化前注意集群所有节点都要清空Hadoop的temp目录。因为旧的clusterID存在里面。

2，有个jdbc链接的错，yarn日志里能看到user jar file找不到，是因为sqoop的lib中没有mysql-connector-java-版本号.jar。如果前面配置过hivedb的话，从hive的lib中找到拷过去。

3，java.lang.ClassNotFoundException: org.apache.commons.lang.StringUtils

网上很多是org.apache.commons.lang3.StringUtils的报错，要看清楚具体报错。没有org.apache.commons.lang.StringUtils，就在Hadoop的share下找commons-lang-2.6.jar，拷贝到share/hadoop/common/lib中。报错是lang3的话就拷commons-lang3-3.7.jar。最后的版本号没关系。集群的话，所有节点的Hadoop都要拷贝。

最后导入成功，查看导入的数据

hadoop dfs -lsr /tmp/hadoop

hadoop fs -cat /tmp/hadoop/*.txt