精简版DataX
目录
概述
阿里的DataX精简版,可以在windows下,仅依赖Java8即可运行。建议在linux下使用原本的DataX。抱歉,收一点积分作为周末劳作的奖励,谢谢。精简版下载地址: https://download.youkuaiyun.com/download/killingbow/12158389
一、快速开始
执行run.bat可以转换in目录下所有csv文件到out目录下,并由逗号做csv分隔符,转为使用tab作为csv分隔符。这个转换于job/csv2csv.json中定义。
注意:
csv2csv.json的windows版本与linux版本是不能混用的。作为inputstream的csv的encoding虽然实际上是以utf8编码的,在windows版本要写成gbk,才会有正确的输出。这可能是由于DataX的bug导致的,但如果在linux就完全没有问题。
二、进阶
job路径下有若干*.json文件,通过修改配置可以实现sqlserver、文本文件、stream、ftp之间的数据的互转。run.bat中第一行set JOB_NAME=csv2csv中的"csv2csv"代表job文件的名字csv2csv.json,run.bat会因此运行这个csv2csv.json配置并输出以此命名的日志,通过修改这里的JOB_NAME即可改变要被运行的任务。
关于job的json格式配置文件,其内容可以由setting和content两部分组成。setting部分的channel设置为"1"即可。content中的reader和writer可参考plugin目录下的reader和writer目录中对应插件文件夹中的plugin_job_template.json的内容。详细的配置文档可以在datax的github官方源码目录找到,每个reader和writer都有非常详细的属性定义包含是否必选、默认值、枚举与值域等等。
三、自定义精简版
希望加入更多模块到精简版,可以从正式版本的plugin中拷贝reader和writer到当前的对应目录下。将这些reader和writer的lib目录移动到公共的lib之中达到共享和精简的目的。
关于
- 撰写: tlw
- 日志:
- 20200215: 创建
3560

被折叠的 条评论
为什么被折叠?



