转载请注明出处:http://blog.youkuaiyun.com/u012842205/article/details/52344196
最近被Sqoop2彻底搞蒙了,各种各样的奇怪问题,层出不穷,而且网上资料都没有针对这些问题的,官方文档也有各种各样的不完整描述。一些注意事项也不说。弄了快一个星期,这么个小小工具,才算基本会使了。网上sqoop1.99.7的资料很少,或者我没找到吧!希望这篇文章能给同行们很好的帮助。主要是记录从MySQL数据表中将数据导出到HDFS上的过程,我也记录下各种奇奇怪怪的问题。
一、环境描述
Apache Hadoop2.6.4
Sqoop1.99.7
Kali2 Linux 系统,基于Debian,Ubuntu也差不多。
MySQL server 5.5.49-0+deb8u1(Debian)
再提一下MySQL的JDBC驱动:直接上官网下的connection/J:mysql-connector-java-5.1.39-bin.jar,也就是5.1.39的版本
二、Sqoop2基本介绍
用于结构化数据系统(比如关系型数据库系统RDBMS)和Hadoop系统间的大量数据传输的一个工具,特别是Hadoop所使用的HDFS分布式文件系统。作为ASF下的一个开源项目,其一开始也只是一个小工具,当然现在也是,还附带一些库供客户端调用。Sqoop版本又分Sqoop1和Sqoop2,其中Sqoop1目前最高释出版本为1.4.6,Sqoop2最高释出版本为1.99.7,Sqoop1与Sqoop2相互间不兼容,而且Sqoop2目的并不是作为产品,主要是致力于开发。再者,其对Hadoop的支持版本有些特别要求,比如Hadoop1和Hadoop0.x还有Hadoop2.x的兼容性等。在下载时一般要注意其兼容的Hadoop版本(Sqoop官网上我没有看到相关具体的描述,只是通过下载的文件名辨别与Hadoop的兼容性)。
Sqoop进行数据转移时必须依赖于Hadoop的MapReduce作业,所以Hadoop必须在环境中存在,且能被Sqoop访问。
三、Sqoop2下载安装
1、直接在