Sqoop

Sqoop是一款用于在Hadoop与RDBMS间传递数据的开源工具,支持全量导入、查询导入、指定列导入、条件筛选导入等功能。它可以将MySQL等数据库的数据导入HDFS、Hive或Hbase,也能将HDFS和Hive的数据导出到RDBMS。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Sqoop

Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql…)
间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres 等)中的
数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
Sqoop 项目开始于 2009 年,最早是作为 Hadoop 的一个第三方模块存在,后来为了让使
用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop 独立成为一个 Apache
项目。
Sqoop2 的最新版本是 1.99.7。请注意,2 与 1 不兼容,且特征不完整,它并不打算用于
生产部署。

RDBMS 到 HDFS

1 全部导入

$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t”

2 查询导入

bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --query 'select name,sex from staff where id <=1 and $CONDITIONS;

注意:如果 query 后使用的是双引号,则$CONDITIONS 前必须加转移符,防止 shell 识别为自己的

变量。

3 导入指定列

bin/sqoop import \
–connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --columns id,sex \ --table staff

4 根据条件筛选导入

bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --table staff \ --where “id=1”

RDBMS 到 Hive

$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --num-mappers 1 \ --hive-import \ --fields-terminated-by “\t” \ --hive-overwrite \ --hive-table staff_hive

提示:该过程分为两步,第一步将数据导入到 HDFS,第二步将导入到 HDFS 的数据迁移到
Hive 仓库,第一步默认的临时目录是/user/ityouxin/表名 需要用到 hive 的 jar,创建 jar 软连接:
ln -s /opt/module/hive/lib/hive-common-1.2.1.jar /opt/module/sqoop/lib/hive-common-1.2.1.jar
ln -s /opt/module/hive/lib/hive-exec-1.2.1.jar /opt/module/sqoop/lib/hive-exec-1.2.1.jar

RDBMS 到 Hbase

$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --columns “id,name,sex” \
–column-family “info” \ --hbase-create-table \ --hbase-row-key “id” \ --hbase-table “hbase_company” \ --num-mappers 1 \ --split-by id

HIVE/HDFS 到 RDBMS

$ bin/sqoop export \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --num-mappers 1 \ --export-dir /user/hive/warehouse/staff_hive \ --input-fields-terminated-by “\t”

提示:Mysql 中如果表不存在,不会自动创建

脚本打包

bin/sqoop --options-file opt/job_HDFS2RDBMS.opt //文件中的命令和参数需要各自独占一行

### Sqoop简介 Sqoop可以理解为:“SQL 到 Hadoop 和 Hadoop 到 SQL”,站在Apache立场看待数据流转问题,可以分为数据的导入导出[^1]。本质上是一个命令行工具,通过Shell命令操作,底层会将命令转换成MapReduce程序来实现数据传输的功能,主要针对InputFormat和OutputFormat[^3]。 ### 版本选择 目前存在Sqoop 1和Sqoop 2两个版本,不过截至当前,官方并不推荐使用Sqoop 2,由于它与Sqoop 1并不兼容,并且功能尚未完全完善,因此优先推荐使用的是Sqoop 1版本[^2]。 ### 安装过程 #### 下载并解压 下载Sqoop并将其解压缩至指定目录下完成初步部署工作[^4]。 #### 配置环境变量 配置`sqoop-env-template.sh`文件,在其中设定必要的环境变量如`JAVA_HOME`、`HADOOP_COMMON_HOME`等重要路径信息,并保存副本命名为`sqoop-env.sh`以便后续调用。 #### 设置数据库连接参数 编辑`sqoop-site-template.xml`文档,输入具体的数据库链接详情等内容之后重命名为`sqoop-site.xml`用于实际的数据交互场景中。 ### 数据库连接测试 为了验证安装是否成功以及确认能够正常访问目标数据库,可以通过执行如下命令查看可用的数据库列表: ```bash sqoop list-databases --connect jdbc:mysql://hostname --username user --password pass ``` 如果想要获取特定数据库内部所有的表结构,则可利用下面这条指令来进行查询: ```bash sqoop list-tables --connect jdbc:mysql://hostname/database --username user --password pass ``` 以上两条语句均需替换对应的主机名(`hostname`)、用户名(`user`)及密码(`pass`)字段以匹配具体的应用情境。 ### 导入数据实例 当一切准备就绪后,就可以着手把来自MySQL的关系型数据库里的记录迁移到分布式存储平台上了,这一步骤可通过运行以下脚本来达成目的: ```bash sqoop import \ --connect jdbc:mysql://localhost/testdb \ --username root \ --table employees \ --target-dir /user/hive/warehouse/employees_data \ -m 1 ``` 此段代码片段展示了如何从名为testdb的一个本地Mysql实例里抽取employees这张表内的全部条目,并最终放置于HDFS系统的/user/hive/warehouse/employees_data位置上;选项`-m 1`指定了仅启动单个Mapper任务处理整个作业流程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值