1、前言
我们的业务数据基本都是在数据库中,如果需要离线同步到hdfs我们就需要使用dataX工具。使用dataX只需要学好json脚本,配置好数据源和路径就可以了。以下是我的一个mysql同步到HIve,以上的变量都可以通过传参统一一个脚本处理。
{
"job": {
"setting": {
"speed": {
"channel": 3
}
},
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "${username}",
"password": "${password}",
"connection": [
{
"jdbcUrl": [
"${jdbcUrl}"
],
"querySql": [
"select id,create_time,update_time from ${sourceTableName} where update_time<'${endTime}' "
]
}
]
}
},
"writer": {
"name": "hdfswriter",
"parameter": {
"column": [
{
"name": "id",
"type": "string"
},
{
"name": "create_time",
"type": "string"
},
{
"name": "update_time",
"type": "string"
}
],
"isCompress": "${isCompress}",
"defaultFS": "${hdfsPath}",
"fieldDelimiter": "${fieldDelimiter}",
"fileName": "${fileName}",
"fileType": "${fileType}"