kettle 开源etl数据抽取工具

本文介绍数据抽取的必要性,包括对业务数据的优化读取、总计数据预计算以及提升效率的方法。使用Kettle开源ETL工具进行mongodb到sqlserver的数据同步过程,包括数据输入、处理和输出步骤,并探讨Kettle与其他工具的比较。

1.为什么要使用数据抽取

(1)为了不妨碍业务数据的读取和写入,需要进行数据的抽取,抽取到另外数据库表进行读取
(2)对某些总计数据可以进行预先计算, 抽取到另外数据库表
(3)随访业务数据库为mongodb , 统计程序编程效率低,需要转成sql 类数据库提高效率

2.工具

使用 kettle 开源etl工具
网址:http://community.pentaho.com/projects/data-integration/

3.使用方法

总体来讲,就是这么个步骤:
选择数据输入——中间数据处理——最后数据输出

比如从mongodb 同步到 sqlserver过程如下:

(1)选择核心对象中的bigdata MongoDB Input (数据输入)

clipboard.png

(2)进行数据处理 (这里筛选了需要抽取的字段)

clipboard.png

(3)选择插入更新输出

clipboard.png

4.总结

数据输入的形式很多,各种形式的数据都可以做为一手数据源, kettle 数据转换的功能也很强大, 还可以进行 java ,javascript 等脚本的编写来进行高级的数据处理, 最后得到需要的数据。
相比其他开源的etl工具和其他商业的etl工具,对比下来 kettle还是比较强大和好用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值