mysqlreader部分配置参数说明
column:需要同步的列名集合,使用JSON数组描述自带信息,*代表所有列
jdbcUrl:对数据库的JDBC连接信息,使用JSON数组描述,支持多个连接地址
table:需要同步的表,支持多个
querySql:自定义SQL,配置该属性会直接忽略table、column、where
password:密码
username:用户名
where(可选):筛选条件
splitPK(可选):数据分片字段,一般为主键
writer配置如下
column:写入的字段,其中name指定字段名,type指定类型
compress(可选):压缩文件类型,不写即没有压缩
defaultFS:hdfs文件系统namenode节点地址,格式:hdfs://ip:端口
fieldDelimiter:字段分隔符
fileName:写入文件名
fileType:文件的类型,只支持text或orc
path:存储到Hadoop hdfs文件系统的路径信息
writeMode: 写入数据处理模式
包括:append(追加)、nonConflict(新增)
编辑配置文件
[root@jzy datax]# vi job/mysql2hdfs.json
添加如下配置
{
“job”: {
“content”: [
{
“reader”: {
“name”: “mysqlreader”,
“parameter”: {
“column”: [
“sensor”,
“temp”
],
“connection”: [
{
“jdbcUrl”: [
“jdbc:mysql://192.168.56.20:3306/mytest”
],
“table”: [
“temperatures”
]
}
],
“password”: “1234”,
“username”: “root”,
}
},
“writer”: {
“name”: “hdfswriter”,
“parameter”: {
“column”: [
{
“name”:“sensor”,
“type”:“string”
},
{
“name”:“temp”,
“type”:“double”
}
],
“defaultFS”: “hdfs://192.168.56.20:9000”,
“fieldDelimiter”: “\t”,
“fileName”: “temperatures”,
“fileType”: “text”,
“path”: “/mydataxInfo/”,
“writeMode”: “append”
}
}
}
],
“setting”: {
“speed”: {
“channel”: “1”
}
}
}
}
[root@jzy datax]# bin/datax.py job/mysql2hdfs.json
1
使用的fileName可能会自动字hdfs生成各种后缀,我们直接以通配符‘*’来查看