
ETL工具
西京刀客
AI,Crypto/Web3.
A bug bounty hunting and a lot of coding is my passion!
展开
-
DataX和kettle初步认识
DataX和kettle初步了解阿里出品的ETL工具dataX初体验参考URL: https://blog.youkuaiyun.com/shudaqi2010/article/details/79247468淘宝DataX 数据交换机制学习总结参考URL: https://blog.youkuaiyun.com/w83304911/article/details/50066641离线数据同步神器:DataX,...原创 2019-05-12 11:21:34 · 13166 阅读 · 1 评论 -
Kettle 中转换(transformation)的执行过程,源码分析
Kettle 中转换(transformation)的执行过程[推荐]Kettle — 转换机制参考URL: https://blog.youkuaiyun.com/u013468915/article/details/82630120基础概念每个转换步骤都是ETL数据流里面的一个任务。转换步骤包括输入、处理和输出。输入步骤从外部数据源获取数据,例如文件或者数据库;处理步骤处理数据流,字段计算,流处理...原创 2019-04-26 15:06:37 · 1704 阅读 · 0 评论 -
IDEA下kettle 步骤插件开发
IDEA下调试kettle插件调试kettle项目内部插件调试自己写的kettle插件maven打包kettle项目完整包理解kettle的git 如何管理的首先,得先了解kettle github上面是如何发布管理的git分支的,知道应该下载哪个源码!通过分析,可以看到master分支的pom中 8.3.0.0-SNAPSHOTgit tag是8.3.0.0_RC则是 8....原创 2019-05-05 09:24:19 · 3327 阅读 · 0 评论 -
IDEA下编译运行kettle8.3
环境win10、IDEA、kettle8.0操作步骤pom修改:发现ui模块默认使用linux下的swt jar包,而我的环境是windows。进行如下修改,将jar更换为winorg.eclipse.swtorg.eclipse.swt.gtk.linux.x86_64修改为org.eclipse.swtorg.eclipse.swt.win32.win32.x86_64...原创 2019-04-13 03:32:20 · 3917 阅读 · 12 评论 -
kettle ftp下载插件,job ftp下载执行结果源码分析
kettle ftp下载插件执行结果源码分析问题背景一个ftp插件下载任务,可能下载很多文件,下载过程中可能有些文件下载成功,有写文件下载失败,这些结果信息,kettle是如何记录的?源码分析分析JobEntryFTP 插件类:JobEntryFTP -> execute() -> downloadFile() private void downloadFile( FTP...原创 2019-04-15 17:02:52 · 1541 阅读 · 0 评论 -
关于 kettle 连接 mysql 的一些问题
关于 kettle 连接 mysql 的一些问题参考URL: http://kcd.nivalsoul.cn/article/1543471574567对于 5.7 及以下版本的 mysql,jdbc 驱动使用 mysql-connector-java-5.1.x.jar,在数据库连接的地方,选择 MySQL,JDBC 方式官方下载有两个jar不要使用带 bin 的 jar!否则可能会出...原创 2019-01-17 21:41:58 · 842 阅读 · 0 评论 -
Kettle日志相关源码分析以及总结
kettle日志基础public enum LogLevel {NOTHING(0, “Nothing”),ERROR(1, “Error”),MINIMAL(2, “Minimal”),BASIC(3, “Basic”),DETAILED(4, “Detailed”),DEBUG(5, “Debug”),ROWLEVEL(6, “Rowlevel”);Nothing 没有日志 ...原创 2019-07-17 15:49:56 · 2780 阅读 · 0 评论 -
Kettle初识
Kettle初识Kettle初识[推荐]参考URL: https://www.jianshu.com/p/2a7ace927825Kettle是一款采用纯JAVA实现的开源ETL工具,属于开源商务智能软件Pentaho的一个重要组成部分。Kettle提供一系列的组件用于完成各种上面所说的抽取、转换、加载的工作。正如Kettle一词的中文意思水壶一样,Kettle的开发人员希望使用kettle...原创 2018-12-13 17:44:59 · 5824 阅读 · 7 评论 -
DataX以及增量同步
DataXDataX基本认识了解Alibaba DataX调研使用https://blog.youkuaiyun.com/aWDac/article/details/80822233[推荐]DataX实战应用https://blog.youkuaiyun.com/u010429286/article/details/82356121DataX是由Alibaba开源的一款异构数据同步工具,可以在常见的各种数据源...原创 2019-05-13 16:50:04 · 41015 阅读 · 2 评论 -
文件文件夹同步
文件文件夹同步快速认识dataX文件同步相关插件DATAX之FTPReaderDATAX之FTPReader参考URL: https://blog.youkuaiyun.com/paicmis/article/details/79491902FtpReader提供了读取远程FTP文件系统数据存储的能力。在底层实现上,FtpReader获取远程FTP文件数据,并转换为DataX传输协议传递给Write...原创 2018-11-21 13:56:15 · 1789 阅读 · 0 评论 -
datax值转换使用以及源码分析
脏数据处理什么是脏数据?目前主要有三类脏数据:Reader读到不支持的类型、不合法的值。不支持的类型转换,比如:Bytes转换为Date。写入目标端失败,比如:写mysql整型长度超长如何处理脏数据AbstractTaskPlugin.getPluginCollector()可以拿到一个TaskPluginCollector,它提供了一系列collectDirtyRecord的...原创 2019-07-05 17:15:08 · 12056 阅读 · 1 评论