
kettle
Biexiansheng
爱技术,爱编程
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
kettle的作业和参数组件
1、大多数ETL项目都需要完成各种各样的维护工作。例如,如何传送文件;验证数据库表是否存在,等等。而这些操作都是按照一定顺序完成。 1.1)、因为转换以并行方式执行,就需要一个可以串行执行的作业来处理这些操作。一个作业包含一个或者多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳(Job hop)和每个作业项的执行结果来决定。 1.2)、作业项是作业的基本构成部分。如...原创 2020-02-26 11:55:18 · 988 阅读 · 0 评论 -
kettle的应用组件 、流程组件、查询组件、连接组件、统计组件、映射组件、脚本组件
1、应用是转换里面的第五个分类。应用都是一些工具类。1.1、替换NULL值就是把null转换为其它的值。NULL值不好进行数据分析1.2、写日志主要是在调试的时候使用,把日志信息打印到日志窗口。2、流程是转换里面的第六个分类。流程主要用来控制数据流程和数据流向。2.1、Switch/case让数据流从一路到多路。2.2、过滤记录让数据流从一路到两路。2.3、空操作一般作...原创 2020-02-18 19:40:38 · 1067 阅读 · 0 评论 -
kettle的转换组件
1、转换是转换里面的第四个分类。转换属于ETL的T,T就是Transform清洗、转换。ETL三个部分中,T花费时间最长,是一般情况下这部分工作量是整个ETL的2/3。2、Concat fields,就是多个字段连接起来形成一个新的字段。3、 值映射,就是把字段的一个值映射成其他的值。在数据质量规范上使用非常多,比如很多系统对应性别gender字段的定义不同。4、增加常量就是在本身的数...原创 2020-02-18 19:40:00 · 713 阅读 · 0 评论 -
kettle的输出组件
1、输出是转换里面的第二个分类。输出属于ETL的L,L就是Load加载。微软的Excel目前有两种后缀名的文件分别为:xls和xlsx。xls:2007年之前。xlsx:2007年之后。 Excel输出、Microsoft Excel输出的区别,Excel输出只能xls后缀名称的文件,Microsoft Excel输出可以生成xls后缀和xlsx后缀名称的文件的。Excel输出,可以获取...原创 2020-02-18 19:39:25 · 570 阅读 · 0 评论 -
kettle的输入组件
1、kettle里面的输入,就是用来抽取数据或生成数据,是ETL操作的E。2、CSV文件是一种带有固定格式的文本文件。注意:获取字段的时候可以调整自己的字段类型,格式,满足自己的需求哦。3、文本文件输入,提取日志信息的数据是开发常见的操作,日志信息基本都是文本类型。首先要获取到要抽取的文本文件哦。可以选择自己的分隔符哦!获取字段,如下所示:4、微软的Excel目前有...原创 2020-02-14 14:56:43 · 690 阅读 · 0 评论 -
kettle的基础概念入门、下载、安装、部署
1、什么是ETL? 答:ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我要学习的ETL工具是Kettle!2、什么是Kettle? 答:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux...原创 2020-02-14 14:55:57 · 532 阅读 · 0 评论