大多数的数据整合不是一个转换就能够完成的,而是分为一个个的任务(Job,又称作业)去处理。任务可以是一个清洗、装载或转换等操作,也可以是多个转换、任务的集合。 任务是按顺序执行的,是比转换更高一级的处理流程。本章将分别介绍任务的开始、转换、成功组件,以及介绍检查数据库表与字段是否存在、文件是否存在、执行SQL脚本和发送邮件等任务常用组件。
开始是任务执行的起点,在开始任务中,设置定时调度参数,可以使任务定时执行。 为了抽取数据库中新到的数据进行分析,需要设置定时任务,使用开始任务组件,定时每天23:59启动任务进行抽取。
(1) 建立【开始】任务工程。
(2) 设置【开始】组件参数。
(3) 运行任务工程。
使用Ctrl+Alt+N快捷键,创建开始任务工程,并将工程命名为“开始”,即创建【开始】任务工程。 在【开始】任务工程中,单击【核心对象】选项卡,展开【通用】对象,选中【Start】组件,并拖曳到右边工作区中,如图所示,在一个任务中,只能有一个【Start】组件。
双击上图所示的【Start】组件,弹出【作业定时调度】对话框,如图所示。
有关参数的说明如表所示。
参数名称 |
说明 |
Job entry name |
表示任务入口名称,一个任务只有一个入口。默认值为Start |
重复 |
表示是否重复执行任务,当需要定时调度时,就是需要重复。缺省值为空 |
类型 |
表示定时的类型,缺省值为不需要定时。定时类型分别如下 不需要定时:由人工执行 时间间隔:间隔多长时间执行一次,单位是分或秒,由读者自行选择 天:每天的几时、几秒开始执行 周:每周周几的几时、几秒开始执行 月:每月几号的几时、几秒开始执行 |
以秒计算的间隔 |
表示以秒计算时,时间间隔的秒数,只有当类型选择为时间间隔时有效,缺省值为0 |
以分钟计算的间隔 |
表示以分钟计算时,时间间隔的分钟数,只有当类型选择为时间间隔时有效,缺省值为60 |
每天 |
表示定时类型为天、周、月时,所在天的开始执行任务的时刻为第几小时、第几分钟,小时数缺省值为12,分钟数缺省值为0 |
每周 |
表示定时类型为周时,天的开始执行任务的时间为星期几,缺省值为星期一 |
每月 |
表示定时类型为月时,开始执行任务的时间为每月的第几日,缺省值为1 |
在上图所示的【作业定时调度】对话框中,设置有关参数,每天23:59开始,执行抽取数据的任务,如图所示,此时完成【Start】组件的参数设置。
在【开始】任务中,单击【开始】组件(名称已由“Start”设置为“开始”),再单击工作区上方的 图标,弹出的【执行作业】对话框,如图所示。
在正式执行任务前,读者可以根据任务需要,设置执行任务的参数,有关参数的说明如表所示。
参数名称 |
说明 | |
Run configuration |
表示运行设置,默认值为Pentaho local | |
详细 |
Expand remote job |
表示是否扩展的远程任务,默认值为空 |
日志级别 |
表示记录的日志级别。日志级别有以下选项,默认值为基本日志。 没有日志:没有日志记录 错误日志:只记录错误的日志 最小日志:只使用最小的日志记录 基本日志:记录基本信息的日志 详细日志:给出详细的日志输出 调试:用于调试目的,非常详细的输出 行级日志:在行记录级进行日志记录,非常详细,将会生成大量日志数据 | |
执行前清空日志 |
表示在运行任务前是否清除所有日志。如果日志很大,读者可在下一次执行之前清除日志,以节省空间。默认值为√ | |
使用安全模式 |
表示检查通过每一行工作,并确保所有的布局是相同的。如果一行的布局与第一行不同,那么将生成一个错误并报告。默认值为空 | |
Gather performance metrics |
表示是否收集性能指标。默认值为空 |
参数名称 |
说明 | |
Run configuration |
表示运行设置,默认值为Pentaho local | |
命名参数 |
命名参数 |
表示命名参数名称,在运行时设置与任务相关的参数值,参数是局部变量。用户临时修改每次任务执行的参数,通过实验性地确定参数的最佳值。使用命名参数表来设置命名参数和对应的值 |
默认值 |
表示命名参数的默认值 | |
值 |
表示命名参数的设置的值 | |
描述 |
表示命名参数的描述 | |
变量 |
变量 |
表示变量的名称。在运行时设置与任务相关的变量的值。使用变量表来设置变量和对应的值。 |
Value |
表示变量的值 |
因为不需要设置运行任务的参数,所以单击上图下方的【执行】按钮,运行【开始】任务工程。在【开始】任务工程工作区下方,展示运行任务的执行结果日志,如下 图所示,表示【开始】任务在开始执行,定时调度在进行当中。如果需要停止正在运行的任务,那么单击工作区上方的 图标。