Sqoop导出数据

最新推荐文章于 2025-06-07 19:07:16 发布

MatrixSparse

最新推荐文章于 2025-06-07 19:07:16 发布

阅读量651

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop生态组件文章标签： sqoop

本文链接：https://blog.youkuaiyun.com/qq_25371579/article/details/50984494

hadoop生态组件专栏收录该内容

62 篇文章

订阅专栏

本文档详细记录了如何在Linux环境中，通过Sqoop将HDFS上的数据导出到已经安装并允许远程连接的MySQL数据库中。步骤包括解压Sqoop、清空MySQL数据、创建选项文件、上传MySQL驱动、执行导出操作以及验证数据导入的正确性。

Sqoop导出数据到Hive上

flume收集日志：主动的和被动的

看文档

sqoop底层是MR，要运行sqoop要有yarn环境，做大数据平台和关系型数据库导入导出工具，必须要有连接数据库的驱动

sqoop和hive必须在一个节点上，sqoop和hive都是工具

如果多个节点都安装了hive，

如何保证多个hive的数据一致-->保证元数据一致-->即保证各个hive中存储元数据(公用元数据)的地方是一个地方

1、node1节点上已经安装了mysql，并允许远程连接：

[root@node1 ~]# service mysql start

[root@node1 ~]# service mysql status

2、将数据导入到HDFS中去

2.1、解压sqoop压缩文件到Linux主机上的指定目录

[root@node1 software]# tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/modules
[root@node1 software]# cd /opt/modules
[root@node1 modules]# mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop-1.4.6

2.2、清空window上的Mysql客户端表中数据

2.3、创建option1选项文件

[root@node1 sqoop-1.4.6]# vi option2

官网有配置的详细解释

export
--connect
jdbc:mysql://node1/test
--username
root
--password
123456
--columns
id,name
--table
t_test
--export-dir
/sqoop/data
--input-fields-terminated-by
','
-m
1

2.4、上传mysql驱动包到sqoop的lib目录下

2.5、查看HDFS上要导出的数据

[root@node1 sqoop-1.4.6]# hadoop fs -ls -R /sqoop/data
-rw-r--r--   3 root supergroup          0 2016-03-25 11:20 /sqoop/data/_SUCCESS
-rw-r--r--   3 root supergroup          0 2016-03-25 11:20 /sqoop/data/part-m-00000

2.6、执行选项文件

[root@node1 sqoop-1.4.6]# ./bin/sqoop --options-file option2

2.7、再次查看HDFS下存放数据的目录，发现数据还在目录下

[root@node1 sqoop-1.4.6]# hadoop fs -ls -R /sqoop/data