- 博客(39)
- 收藏
- 关注
转载 使用 kettle 做信息采集
最近在使用 Kettle 从一些分类信息网站采集数据,如这里的赶集网插件。基于这些采集插件,我们开发了一个教育行业的应用网站,这个网站可以从不同的分类信息网站、BBS采集教育行业的信息。[@more@] ...
2010-09-02 10:09:01
354
转载 关于 kettle 中文稳定版
Kettle 是一个优秀的开源 ETL 工具,用过它的开发人员都会为它的功能强大而折服,甚至成为了 Kettle Fans。 和很多流行开源软件一样,Kettl 不断增加新的功能,但同时也不断引入新的 bug,因此一直没有...
2010-08-31 12:51:38
1351
转载 kettle 实用功能之三 ---- 使用 kettle 群发动态内容的邮件。
有个客户是做外贸生意的,经常需要群发邮件,要求邮件里商品名称,收信人称谓等内容是动态的。他一直找不到一个合适的免费的群发工具,于是我推荐他使用了 kettle,并帮他画了一个流程来群发邮件。(这位朋友不是IT 人员,不会开发,只...
2010-06-26 23:25:06
905
转载 制作 kettle 插件时,在 processRow 方法里的几个常用方法说明:
制作 kettle 插件时,在 processRow 方法里的几个常用方法说明:(转载请注明:http://pdi.itpub.net)//复制输入行的元数据,并设置为输出行的元数据。RowMetaInterface outpu...
2010-06-03 00:16:34
2061
转载 kettle modified javascript 步骤的一个例子
例子里用到的 org.htmlparser.Parser 是一个html 的解析器,可以在 sourceforge 上下载。这个例子使用 org.htmlparser.Parser 包来解析一个 html 格式的字符串,要解析的...
2010-05-19 09:49:16
178
转载 kettle 实用小功能(二),读取一个目录下文本文件的内容
kettle 的实用小功能 中介绍了如何批量读取二进制文件的内容,这里说一下批量读取文本文件的方法。第一步也是使用 Get File Names 步骤,根据正则表达式来获取一个路径下所有指定的文件名。第二步骤使用 modifie...
2010-05-19 00:35:56
1184
转载 微软对大企业下手了
看了这个新闻 http://tech.sina.com.cn/it/2010-04-22/10024094959.shtml 不禁有些感慨,微软的东西的确好用,但好用的东西是要花钱的。(转载请注明 http://pdi.i...
2010-04-23 11:21:19
623
转载 pdf/word/ppt/... 文件读取插件 - 输入步骤
最近需要做一个 Common File Reader 的 kettle 插件,希望这个插件可以读取例如 PDF, WORD, PPT, WPS 等常见格式文件的内容,今天已经实现了第一步,读取 PDF 的功能。该插件是一个输入步...
2009-12-19 23:04:25
534
转载 kettle 里的 NULL 和空字符串
在 kettle 里, NULL 和空字符串是不加区别的,就是说如果往数据库里插入一个空字符串,你会发现数据库里插入的是 NULL,这对 ORACLE 的 DBA 的来说可能是司空见惯的事情,但对于 SqlServer 和 My...
2009-12-08 23:48:21
437
转载 mondrian output 的插件和代码现在可以下载了。
mondrian output 的插件和代码现在可以下载了。这个插件可以把 mondrian 的查询结果以 excel 和 chart 的方式展现出来, 并放在 kettle 的结果文件里,继续处理,如作为邮件附件等。[@mor...
2009-11-17 15:07:10
105
转载 kettle 里的 variables, arguments, 和 parameters
kettle 3.2 以前的版本里只有 variable 和 argument, 所以在 GUI 上对这两个单词的汉化,分别是变量和参数。但是在 kettle 3.2 中,又引入了 parameter 概念http://jira...
2009-11-17 00:29:25
411
转载 1 to N 数据同步和双向数据同步
最近在做两个数据同步的项目。第一个数据同步项目要求一个系统向多个系统同步,有些类似于 SqlServer 订阅发布的概念,不过一个源和多个目标的数据库的结构差别很大,是不同的应用系统。第二个数据同步项目要求在两个异构数据库系统之...
2009-11-07 19:40:35
239
转载 表增量输入步骤
增量抽取是应用项目中很常见的一种需求。在本 blog 前面的文章中对增量抽取的几种实现方式有比较详细的说明。这里要介绍的表增量输入步骤就是基于触发器这种方式以 kettle 插件的方式实现的。对于各类支持触发器的数据库,都可以使...
2009-06-26 15:39:45
230
转载 kettle 的 jasper report 插件
曾经做过一个 kettle 的 japser report 的插件,通过该插件可以给 kettle 增加报表的功能,它可以将 kettle 处理过的数据流转换为报表。在最近的项目中又用到了该插件,并做了一些改进,下面详细介绍一下...
2009-06-03 20:06:07
213
转载 kettle 的实用小功能
kettle 除了作为 ETL 工具外,还有很多数据处理方面的实用功能,本文介绍几个实用的小功能。1. 文件批量入库该功能可以将一个目录下的全部或部分文件加载到数据库中。流程图:[@more@]第一步: “获取文件名” 步骤获取...
2009-05-24 11:24:26
430
转载 Mondrian license 要从 CPL 改到 EPL 了
Mondrian 3.1 发布后,Mondrian的 license 就要从 CPL 改到 EPL 了,这两个 license 差不多,EPL 是基于CPL 的。 [@more@]不同之处在于 CPL 是由 IBM 支持的,EP...
2009-05-18 16:04:40
163
转载 使用 mondrian output job entry 输出图表
根据开发计划和项目的需要,最近又为 mondrian output job entry 增加了输出图形的功能,目前这个插件支持从 MDX 查询生成 excle 表格和图形,图形以图片的方式保存,并嵌入到excel 的工作簿中。[...
2009-04-17 21:41:57
116
转载 使用 Pentaho 工具创建维度报表的过程
本文简要介绍了如何使用 Pentaho 的相关工具在关系型数据库基础上建立dimension 和cube, 以及如何利用这些cube产生一个报表或图表。 首先要在数据库里建立维度表和事实表。 维度表和事实表就是数据库里普通的...
2009-02-28 18:01:25
295
转载 使用 Mondrian Output 作业项创建多维报表
Mondrian Output 作业项是我们最近开发的一个 Kettle 作业项, 该作业项的主要功能就是执行 MDX 查询, 并将结果生成一个 Excel 报表.Kettle 的转换里有一个 Mondrian Input 步骤...
2009-01-31 20:20:19
143
转载 一个小型 BI 项目的总结
最近在做一个小型 BI 项目,项目的工期很紧,现在项目一期已经接近尾声,趁这个机会做个项目总结.项目背景: 该项目的需求方是一家大型的跨国销售类企业, 在世界各地都有销售网点, 每个销售网点会将当日销售/库存等数据上报到业务系...
2009-01-11 20:29:00
869
转载 PDI 的帮助都移到了 wiki 上
以前 Spoon 的帮助都是以 PDF 文件提供的, 现在都移到了 wiki 上, 这样用户可以直接在 wiki 上发评论: http://wiki.pentaho.com/display/EAI/Spoon+User+Guid...
2008-09-28 12:15:38
74
转载 PDI 对 PostGreSQL 的一些特殊处理
PostGreSQL 和其它数据库(SQLServer, Oracle等)有一个很大的不同: 就是写数据时,如果有主键冲突或其它错误,PostGreSQL 会等待事务结束,错误语句后面的语句都将被忽略.[@more@]所以 PD...
2008-09-26 13:57:07
134
转载 关于 Pentaho 的配置文件 pentaho.xml
关于 Pentaho 的配置文件 Pentaho 的配置文件 pentaho.xml 包括了 Pentaho 平台的系统级的设置在 Pentaho 1.6 以前的版本中配置文件 pentaho.xml 位于${solutions...
2008-09-23 13:37:14
276
转载 Pentaho 使用中发现的几个问题和解决方法
1: Caused by: org.apache.commons.vfs.FileSystemException: Multiple providers registered for URL scheme "solution"原...
2008-09-22 13:16:03
1047
转载 最近做了一个 PDI 的 jasperreport 的插件
通过 PDI 处理过的数据可以直接出 Jasper 的报表了.cheer![@more@] ...
2008-08-21 15:13:52
134
转载 一种特殊文本格式的输入
"1"|"99A1026164***01"|"1"|"张学友"|"香港市"|"200063"|"张学友"|"个人"|"00****72"|"99A102616400"|"xx证券"|"66800000030005119"|"...
2008-08-21 11:58:26
220
转载 Kettle 在应用中遇到的一些问题和解决方法
本文主要总结了 Kettle 在中文环境应用中遇到的一些问题, 问题列表还会不断增加. 这些问题都是 kettle fans 提供的,欢迎参与讨论.问题1:从excel 中抽取数据,插入到oracle 9 数据库中,报下面的错误...
2008-07-19 23:45:58
1335
转载 关于 PDI 性能的简单测试
PDI 使用了下面的技术来提高性能:1. 数据库连接池。2. 多线程并发进行数据转换: 转换步骤是并发执行的,使用生产者/消费者的模式,每个步骤由一个线程来执行,当前步骤将一次处理完的数据放在缓存里,由下一个步骤的线程读取并再处...
2008-07-15 21:31:33
374
转载 pentaho 的框架
这个图就是Pentaho 的框架图:pentaho 的框架图展示了 BI 服务上的主要的组件和他们与外部的接口。BI 服务的中心是解决方案引擎(Solution Engine)。如图所示解决方案引擎位于外部客户端和内部组件层的中...
2008-07-14 00:41:05
187
转载 关于资源库
资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以是各种常见的数据库,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin[@more@]资源库并不是必须的...
2008-06-13 16:38:26
503
转载 记录集连接步骤
该步骤就是将两个表或记录集进行连接。可选的连接方式有INNER:内连接[@more@]LEFT OUTER:左连接RIGHT OUTER:右连接OUTER:外连接 ...
2008-06-13 16:33:55
308
转载 合并记录步骤
该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。需要设置的参数:[@more@]旧数据来源:旧数据来源的步骤新数据来源。新数据来源的步骤标志字段:...
2008-06-13 16:28:37
815
转载 行转列步骤
行转列步骤实际上就是生成所谓的透视表(pivoted table)的步骤,在直观上也就是将属于同一组的多行数据变为一行数据。[@more@]分组字段:将所有记录分成不同组的字段名称。关键字段:在一个分组内区分不同记录的字段名称。...
2008-06-13 16:26:20
106
转载 数据库查询步骤
该步骤可以根据数据流里的数据来查询数据库表里的数据,并得到数据表里的指定字段。查询得到的字段也作为数据流里的字段,并转到下一个步骤。[@more@]需要设置的参数数据库连接:要查询的表所在的数据库连接.查询的表:要查询的表名.表...
2008-06-13 16:24:54
965
转载 表输入步骤
表输入是从一个数据库表或数据库视图中获得数据。在表输入步骤里要选择数据库和数据库里的某个表或视图。也可以直接输入SELECT 语句来获得数据。配置窗口中选项说明:[@more@]1 替换脚本脚本里的变量:是否在SQL 语句里可以...
2008-06-13 16:20:21
284
转载 JavaScript 转换步骤
Kettle 里的 JavaScript步骤 是一个非常重要的转换步骤,一般来说其他步骤搞不定的事情,都可以由它来解决。 JavaScript步骤里使用的脚本是 Mozilla 的 Rhino,Rhino 是一个很流行的脚本语言...
2008-06-13 16:13:52
115
转载 Excel 输入步骤
Excel 输入步骤用于从Excel 文件中按照指定的数据类型和格式获取数据。Excel输入步骤的设置包括五个部分: 1. 文件[@more@]选择一个Excel文件或保存有Excel 文件的目录。文件或目录:设置要读取的Exc...
2008-06-13 16:06:00
145
转载 PDI(Kettle) 是什么?PDI(Kettle) 都能做什么?
PDI(Kettle) 是什么?PDI(Kettle) 是一款开源的、元数据驱动的 ETL (数据的抽取、转换、加载)工具,是开源 ETL 工具里功能比较强大的一个。 [@more@]PDI 的全称是Pentaho Data I...
2008-06-03 17:13:52
1194
转载 文本文件输入步骤
从文本文件中获得数据,常见的文本文件包括csv 、txt、文件等。用户要在该步骤指定文件名、文件内容、错误处理方式、过滤器、字段等项目。 参数说明: [@more@]l 指定文件名的三种方式 1. 指定一个具体的文件名。 2. ...
2008-06-03 11:30:36
893
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人