ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
在2023年使用了一个ETL软件:spoon
该软件中我使用了两个功能,作业及转换,
举例说明一下:
一、 转换
由于在数据中经常存在上游信息及下游信息缺失问题,为了能更快捷的根据第三方提供的缺失信息进行补充,设置了这个转换程序。
第一步:通过入图所示,点击转换添加转换任务

第二步:通过核心对象添加,输入对象,我这次添加的是EXCEL表,左键拖拉到操作页面

第三步:单击左键,编辑步骤,如图所示编辑,一般能预览成功就说明设置的没有问题,具体情况具体分析。

第四步:
添加流程条件,编辑步骤筛选省份不为空

第五步:添加流程条件,编辑步骤筛选清洗条件

第六步:输出结果


第七步:按住shift键+鼠标左键,添加箭头;
第八步:保存并使用时运行如图按钮,点击启动即可执行。

二、作业
为了实现程序自动执行,定时执行规定的SQL,设置该程序
第一步:点击第一张图中的加号,添加作业
第二步:在核心对象中把开始组件:STREAT,编辑作业入口,设置定时规则

第三步:添加结束组件:成功给添加上去;

第三步:添加脚本组件:SQL

第四步:编辑SQL组件,添加执行的SQL;

第五步:按住shift键+鼠标左键,添加箭头;
第六步:保存并使用时运行如图按钮,点击启动即可执行。
后续如有新增再添加。

本文详细介绍了ETL(Extract-Transform-Load)过程在数据仓库中的应用,特别聚焦于2023年使用的Spoon软件。通过实例演示了如何利用Spoon进行数据转换和设置自动作业,包括数据抽取、清洗、加载以及定时执行SQL等功能。
3908

被折叠的 条评论
为什么被折叠?



