用把数据从hdfs写入到mysql

sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里,我写一下用java程序来实现sqoop把数据从HDFS写入到MYSQL。 在接触sqoop之前,我自己写了一个传输类来实现
sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里,我写一下用java程序来实现sqoop把数据从HDFS写入到MYSQL。 
在接触sqoop之前,我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想: 
1、在MYSQL中创建一个参数表A,用来记录要传输的表的表名B和字段。 
2、HDFS上的数据的格式和MYSQL中参数表A中B表的字段的数量一样。 
3、从MYSQL的参数表A中,读取要传输的表B。把这些字段拼凑成一个insert语句,例如 
,拼凑为insert into b(column1,column2..) values(value1,value2...) 
4、从HDFS相应的目录逐行读取数据,通过JDBC,把数据批量导入到MYSQL的B表中。 

我现在用sqoop来代替原来传输的那个功能。先做一下准备工作: 
1、hadoop的每个节点下lib文件夹中要有mysql的jar包和sqoop的jar包。 
2、在HDFS的某个目录上的数据格式和MYSQL相应的表中的字段数量一致。 

实现类如下: 

package sqoop; 

import java.util.ArrayList; 
import java.util.List; 

import org.apache.hadoop.conf.Configuration; 
import org.apache.sqoop.Sqoop; 
import org.apache.sqoop.tool.ExportTool; 

/** 
* 用SQOOP来把数据从HDFS导入到MYSQL。 
* */ 
public class Test { 

public static void main(String[] args) { 

List<String> generatedJarsList = new ArrayList<String>(); 

Configuration conf = new Configuration(); 
conf.set("fs.default.name", "hdfs://master:9000"); 
conf.set("hadoop.job.ugi", "hadooper,hadoopgroup"); 
conf.set("mapred.job.tracker", "master:9001"); 

ArrayList<String> list = new ArrayList<String>();  //定义一个list 

list.add("--table"); 
list.add("a_baat_client");  //mysql中的表。将来数据要导入到这个表中。 
list.add("--export-dir"); 
list.add("/tmp/datathree/"); //hdfs上的目录。这个目录下的数据要导入到a_baat_client这个表中。 
list.add("--connect"); 
list.add("jdbc:mysql://192.168.1.10:3306/report"); //mysql的链接 

list.add("--username"); 
list.add("root"); //mysql的用户名 
list.add("--password"); 
list.add("root"); //mysql的密码 

list.add("--lines-terminated-by"); 
list.add("\\n"); //数据的换行符号 
list.add("-m"); 
list.add("1");//定义mapreduce的数量。 

String[] arg = new String[1]; 

ExportTool exporter = new ExportTool(); 
Sqoop sqoop = new Sqoop(exporter); 

sqoop.setConf(conf); 

arg = list.toArray(new String[0]); 

int result = Sqoop.runSqoop(sqoop, arg); 


System.out.println("res:" + result);  //打印执行结果。 



这个导出类执行过程中,可以在浏览器中看一下http://master:50030页面。会发现导出数据也是一个把任务转换为mapreduce执行的过程。 
当然,上面的java代码,也可以用命令行来实现。命令如下: 
bin/sqoop export --connect jdbc:mysql://192.168.1.10:3306/report \ 
--table a_baat_client --username root --password root \ 
--export-dir /tmp/datathree/  -m 1

关于sqoop把数据从HDFS导入到MYSQL就说这么多。把数据从HIVE导入到MYSQL,其实可以理解为把HIVE表所对应的HDFS路径的数据导入到MYSQL,这里就不多说了。
### 使用 DataX 将 HDFS 中的数据同步到 MySQL 的配置方法 #### 配置概述 为了实现从 HDFSMySQL数据同步,需要使用 `HDFSReader` 和 `MySQLWriter` 插件完成任务。以下是详细的配置流程。 --- #### 1. 创建 JSON 配置文件 JSON 文件是 DataX 执行的核心配置文件,用于定义数据源、目标以及同步逻辑。创建名为 `test_province.json` 的配置文件: ```json { "job": { "content": [ { "reader": { "name": "hdfsreader", "parameter": { "defaultFS": "hdfs://namenode:8020", // 替换为实际的 Namenode 地址 "path": "/base_province/", // 要同步的 HDFS 目录路径 "fileType": "text", // 文件类型 (支持 text, orc 等) "column": ["*"], // 同步列字段,默认全量同步 "fieldDelimiter": "\t" // 字段分隔符 } }, "writer": { "name": "mysqlwriter", "parameter": { "username": "root", // MySQL 用户名 "password": "your_password", // MySQL 密码 "connection": [ { "jdbcUrl": "jdbc:mysql://localhost:3306/gmall?useUnicode=true&characterEncoding=UTF-8&serverTimezone=UTC", // JDBC URL "table": ["test_province"] // 目标表名称 } ], "writeMode": "insert", // 写入模式 (可选 insert/update/replace) "column": ["col1", "col2", ...] // 对应的目标表字段列表 } } } ], "setting": { "speed": { "channel": 3 // 并发通道数量 } } } } ``` 此配置文件指定了 HDFS 数据源和 MySQL 数据目标,并设置了必要的参数[^1]。 --- #### 2. 处理大文件场景下的数据丢失问题 当处理大规模数据时,可能会遇到部分数据未被完全读取的情况(通常仅读取约 256MB)。为了避免此类问题,可以通过调整以下设置来解决: - **增加并发度**:提高 `channel` 参数值以提升吞吐能力。 - **启用断点续传**:在 DataX 设置中加入断点续传选项。 - **验证数据一致性**:通过校验工具确认两端数据的一致性[^2]。 --- #### 3. 自动生成配置文件 如果手动编写 JSON 文件较为繁琐,可以利用官方提供的一键生成脚本来简化操作。运行如下命令自动生成配置文件: ```bash python gen_export_config.py -d gmall -t test_province ``` 其中 `-d` 表示数据库名称,`-t` 表示表名称。执行完成后会生成对应的 DataX 配置文件[^4]。 --- #### 4. 执行同步任务 启动 DataX 进程并加载已编写的 JSON 配置文件: ```bash python $DATAX_HOME/bin/datax.py /path/to/test_province.json ``` 确保 `$DATAX_HOME` 环境变量指向 DataX 安装目录。执行成功后,可通过 SQL 查询验证数据是否正确导入至 MySQL[^5]。 --- #### 5. 常见问题排查 - 如果发现数据不一致,可能是因为 HDFS 上的部分文件未能正常解析。建议检查日志输出定位具体错误。 - 若性能不足,则尝试调优 `channel` 数量或优化网络带宽资源分配。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值