参考:https://blog.youkuaiyun.com/m_signals/article/details/53190965
https://blog.youkuaiyun.com/qq_24871519/article/details/86524349
Hadoop3.3.0,sqoop1.99.7,hive3.1.2,mysql5.7
其中遇到3个问题
1,GENERIC_HDFS_CONNECTOR_0007:Invalid input/output directory - Unexpected exception
user hadoop is not allowed to impersonate hadoop
网上一般让修改hadoop 配置文件core-site.xml, 加入以下配置:
<property>
<name>hadoop.proxyuser.${Hadoop用户}.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.${Hadoop用户}.groups</name>
<value>*</value>
</property>
我实际上是这么配置的也会报错。后来重新格式化、重启集群后就不报错了。格式化前注意集群所有节点都要清空Hadoop的temp目录。因为旧的clusterID存在里面。
2,有个jdbc链接的错,yarn日志里能看到user jar file找不到,是因为sqoop的lib中没有mysql-connector-java-版本号.jar。如果前面配置过hivedb的话,从hive的lib中找到拷过去。
3,java.lang.ClassNotFoundException: org.apache.commons.lang.StringUtils
网上很多是org.apache.commons.lang3.StringUtils的报错,要看清楚具体报错。没有org.apache.commons.lang.StringUtils,就在Hadoop的share下找commons-lang-2.6.jar,拷贝到share/hadoop/common/lib中。报错是lang3的话就拷commons-lang3-3.7.jar。最后的版本号没关系。集群的话,所有节点的Hadoop都要拷贝。
最后导入成功,查看导入的数据
hadoop dfs -lsr /tmp/hadoop
hadoop fs -cat /tmp/hadoop/*.txt