一 用kettle实现转化
1.介绍
转化是ETL解决方案中重要的组成部分之一,主要用于数据的抽取,转化以及加载等操作,其本质是一组图形化的数据转化配置的逻辑结构。一个转化包括一个或多个步骤,如读取文件,过滤输出行,数据清洗或将数据加载到数据库中等步骤。
2.流程介绍
(1)启动kettle工具,在工具栏处选择“文件”→“新建”→“转换”,依次操作就创建好了一个转换。
点击“文件”→“保存”可自定义转换名称和保存路径。
点击核心对象,切换到转换的核心对象页面。右键单击工作区的空白处,选择“新建注释”
单击“输入”,将“表输入”拖曳到工作区,单击输出,将“文本文件输出”也拖曳到工作区。按住Ctrl,同时选中“表输入”和“文本文件输出"并右击,选择“新建节点连接”,弹出的窗口中点击确认。至此,已完成了创建一个转换。
二 创建一个作业
1.介绍
目前,大多数的ETL项目都需要完成各种各样的维护工作。例如,如何传送文件,验证数据库中的数据表是否存在等操作,这些操作都必须按照一定顺序完成,由于转换时以并行方式执行的,因此需要一个可以串行执行的祖业处理这些操作。
2.操作流程
(1)启动kettle,在工具栏处选择“文件”→“新建”→“作业”,依次操作就创建好了一个作业。
(2)选择“文件”→“保存”,就可以修改作业的默认名称及保存路径。