一、Reader插件和Writer插件
“reader”: {
“name”: “mysqlreader”, #从mysql数据库获取数据(也支持sqlserverreader,oraclereader)
“name”: “txtfilereader”, #从本地获取数据
“name”: “hdfsreader”, #从hdfs文件、hive表获取数据
“name”: “streamreader”, #从stream流获取数据(常用于测试)
“name”: “httpreader”, #从http URL获取数据
}
“writer”: {
“name”:“hdfswriter”, #向hdfs,hive表写入数据
“name”:"mysqlwriter ", #向mysql写入数据(也支持sqlserverwriter,oraclewriter)
“name”:"streamwriter ", #向stream流写入数据。(常用于测试)
}
二、json配置文件模板
-
整个配置文件是一个job的描述;
-
job下面有两个配置项,content和setting,其中content用来描述该任务的源和目的端的信息,setting用来描述任务本身的信息;
-
content又分为两部分,reader和writer,分别用来描述源端和目的端的信息;
-
setting中的speed项表示同时起几个并发去跑该任务。
-
mysql_to_hive示例
{
“job”: {
“content”: [
{
“reader”: {
“name”: “mysqlreader”,
“parameter”: {
“querySql”: “”, #自定义sql,支持多表关联,当用户配置querySql时,直接忽略table、column、where条件的配置。
“fetchSize”: “”, #默认1024,该配置项定义了插件和数据库服务器端每次批量数据获取条数,该值决定了DataX和服务器端的网络交互次数,能够较大的提升数据抽取性能,注意,该值过大(>2048)可能造成DataX进程OOM
“splitPk”: “db_id”, #仅支持整形型数据切分;如果指定splitPk,表示用户希望使用splitPk代表的字段进行数据分片,如果该值为空,代表不切分,使用单通道进行抽取
“column”: [], #"*“默认所有列,支持列裁剪

本文详细介绍了DataX的数据同步工具中Reader和Writer插件的功能,包括从MySQL、HDFS、HTTP等不同源获取数据,以及将数据写入HDFS、MySQL等目标端的方法。并提供了mysql_to_hive和hive_to_mysql的配置示例,展示了如何通过JSON配置文件实现数据的高效传输。
最低0.47元/天 解锁文章
1983

被折叠的 条评论
为什么被折叠?



