用Sqoop把数据从HDFS导入到MYSQL

sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里,我写一下用java程序来实现sqoop把数据从HDFS写入到MYSQL。
在接触sqoop之前,我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想:
1、在MYSQL中创建一个参数表A,用来记录要传输的表的表名B和字段。
2、HDFS上的数据的格式和MYSQL中参数表A中B表的字段的数量一样。
3、从MYSQL的参数表A中,读取要传输的表B。把这些字段拼凑成一个insert语句,例如
,拼凑为insert into b(column1,column2..) values(value1,value2...)
4、从HDFS相应的目录逐行读取数据,通过JDBC,把数据批量导入到MYSQL的B表中。

我现在用sqoop来代替原来传输的那个功能。先做一下准备工作:
1、hadoop的每个节点下lib文件夹中要有mysql的jar包和sqoop的jar包。
2、在HDFS的某个目录上的数据格式和MYSQL相应的表中的字段数量一致。

实现类如下:

package sqoop;

import java.util.ArrayList;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.sqoop.Sqoop;
import org.apache.sqoop.tool.ExportTool;

/**
* 用SQOOP来把数据从HDFS导入到MYSQL。
* */
public class Test {

public static void main(String[] args) {

List<String> generatedJarsList = new ArrayList<String>();

Configuration conf = new Configuration();
conf.set("fs.default.name", "hdfs://master:9000");
conf.set("hadoop.job.ugi", "hadooper,hadoopgroup");
conf.set("mapred.job.tracker", "master:9001");

ArrayList<String> list = new ArrayList<String>(); //定义一个list

list.add("--table");
list.add("a_baat_client"); //mysql中的表。将来数据要导入到这个表中。
list.add("--export-dir");
list.add("/tmp/datathree/"); //hdfs上的目录。这个目录下的数据要导入到a_baat_client这个表中。
list.add("--connect");
list.add("jdbc:mysql://192.168.1.10:3306/report"); //mysql的链接

list.add("--username");
list.add("root"); //mysql的用户名
list.add("--password");
list.add("root"); //mysql的密码

list.add("--lines-terminated-by");
list.add("\\n"); //数据的换行符号
list.add("-m");
list.add("1");//定义mapreduce的数量。

String[] arg = new String[1];

ExportTool exporter = new ExportTool();
Sqoop sqoop = new Sqoop(exporter);

sqoop.setConf(conf);

arg = list.toArray(new String[0]);

int result = Sqoop.runSqoop(sqoop, arg);


System.out.println("res:" + result); //打印执行结果。
}
}

这个导出类执行过程中,可以在浏览器中看一下http://master:50030页面。会发现导出数据也是一个把任务转换为mapreduce执行的过程。
当然,上面的java代码,也可以用命令行来实现。命令如下:
bin/sqoop export --connect jdbc:mysql://192.168.1.10:3306/report \
--table a_baat_client --username root --password root \
--export-dir /tmp/datathree/ -m 1

关于sqoop把数据从HDFS导入到MYSQL就说这么多。把数据从HIVE导入到MYSQL,其实可以理解为把HIVE表所对应的HDFS路径的数据导入到MYSQL,这里就不多说了。
Sqoop是一个Apache项目,它允许你在Hadoop生态系统(包括HDFS)和传统的结构化数据存储系统之间进行数据交换,特别是用于MySQL这样的关系型数据库。下面是使用SqoopHDFS文件上传到MySQL的基本步骤: 1. **安装和配置**: - 确保已经安装了HadoopSqoop。你需要在Hadoop集群上运行Sqoop命令。 - 创建一个Sqoop用户并添加到HadoopHDFS访问组。 2. **创建Sqoop作业**: 使用Sqoop的`create-table`命令,生成一个描述如何映射HDFS文件到MySQL表的脚本。例如: ```bash sqoop import \ --connect "jdbc:mysql://your_mysql_host:port/db_name" \ --table your_table_name \ --username your_username \ --password your_password \ --hive-import`选项告诉Sqoop使用Hive的表模式自动创建MySQL表,如果你的数据已经是 Hive 的分区或者有复杂的结构。 3. **运行转换**: 如果一切准备就绪,你可以使用`import`命令实际将数据HDFS复制到MySQL: ```bash sqoop import \ --connect "jdbc:mysql://your_mysql_host:port/db_name" \ --table your_table_name \ --update改良版本,如果希望更新已存在的记录 \ --username your_username \ --password your_password \ --incremental append改良版本,如果想追加新数据,而不是覆盖已有数据 \ --update-by-date date_column_name改良版本,基于日期字段做增量导入 \ --as-textfile如果源文件不是二进制文件,需要此选项 ``` 4. **验证结果**: 检查MySQL表是否已经被填充,并确认数据是否按预期导入
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值