- 博客(11)
- 收藏
- 关注
原创 数据清洗(8.3.5-8.3.6)
一、加载用户数据至用户维度表1.打开Kettle工具创建转换load_dim_customer,并添加“表输出”控件、“映射(子转换)”控价、“字段选择”控件、值映射控件、“维度查询/更新”控件,以及Hop跳连接线。2.配置“表输入”控件,进入“表输入”界面单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮。在SQL数据框中编写用于获取字段customer_last_update中的最大值,将该值替换成1970-01-01 00:00:00并赋值给临时字段max_dim_customer_
2021-11-15 15:35:53
756
原创 数据清洗示例(8.3.7-8.3.8)
一、加载演员数据至演员维度表1.打开Kettle工具,创建转换,load_dim_actor,并添加“表输入”控件、“插入/更新”控件以及Hop跳连接线。2.配置“表输入”控件,点击“表输入”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮。在SQL框编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为1970-01-01, 00:00:00并赋值给临时字段max_dim_actor_last_update;单击“预览”按钮,查看临
2021-11-14 16:46:47
1034
原创 数据清洗(第七章操作题)
一.现有两张数据表,分别为full_source和fulltarget,其中full_source为源数据表,full_target为目标数据表,数据表Full_source和full_target,使用Kettle工具,实现将full_source中的数据全量加载到数据表full_target中。1.使用Kettle工具创建转换full_load,并添加“执行SQL脚本”控件,“表输入控件",“表输出控件”,以及Hop连接线。双击执行SQL脚本控件,进入执行SQL语句界面2.配置数据库SQL框中编
2021-11-08 10:33:01
501
原创 数据清洗(第八章示例)
一、加载日期数据至日期维度表1.打开Kettle工具创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线。2.配置“生成记录控件”,双击生成记录界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年日期(10*365);在“字段”框添加字段language(语言),country_code(国家码),initial_date(初始化日期),对生成的日期进行初始化。3.配置“增加序列”控价,
2021-11-04 23:49:31
583
原创 ETL作业(Excel输入,生成记录,生成随机数,获取系统信息,排序记录,去除重复记录,替换NULL值)
1.Excal输入首先通过Excal建立一个.xls文件,向其中输入数据。建立转换,建立Excal输入控件。双击Excal输入控件,点击浏览选中物理.xls文件,点击添加。点击工作表,输入要读取得工作列表。点击字段选项,点击获取来自头部数据的字段…2.生成记录在工作中,往往需要生成随机数验证码,作为数据或文件的验证码。为方便给授权用户验证文件,需要通过生成随机数,生成一组MD5信息授权码,作为数据文件的认证授权码。首先建立一个转换,建立生成记录控件。双击打开生成记录控件,填加相关字段点
2021-10-30 15:17:19
913
原创 数据清洗第六章操作题
一、对文本文件进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.txt中。1.打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线。2.配置文本文件输入控件,双击“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】按钮,
2021-10-19 21:10:24
465
原创 数据清洗第五章操作题
1.对merge.csv进行去重1.打开Kettle工具创建转换repeat_transform,并添加“CSV文件输入控件”、“唯一行(哈希值)”以及Hop跳连接线。双击“CSV文本输入”控件,进入“CSV文件输入”界面,点击浏览按钮,选择要去重的CSV文件,如图点击获取字段,Kettle会自动检索CSV文件,并对文件属性就行分析,单击预览,查看CSV文件是否被加载到CSV文件输入流中。2.匹配“唯一行(哈希值)”控件双击“唯一行(哈希值)”控件按钮,进入“唯一行(哈希值)”界面“用来比较的字
2021-10-16 15:32:27
179
原创 数据清洗读书笔记第四章
1.CSV文件的抽取1.打开Kettle工具创建一个csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop连接线,用来实现CSV文件数据的抽取功能。进入“CSV文件输入”控件,进入“CSV文件输入”界面,点击浏览,选取文件csv_extract.csv点击获取字段按钮,Kettle自动检索CSV文件,对文件中的字段类型,格式,长度,精度等属性进行分析。2.双击“表输出”,进入表输出界面,点击“新建”按钮,进行配置数据库连接,勾选指定数据库字段复选框,将csv_extract.
2021-10-06 15:56:43
318
原创 数据清洗作业(Kettle转换和作业的例子)
1.转换1.双击Kettle下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”—>“新建”->“转换”命令创建一个转换。在Kettle主界面的工作区右击空白处,从弹出的快捷菜单中选择“新建注释”的命令,并且添加注释内容。然后单击“输入”,把“表输入”拖曳到Kettle工作区;单击“输出”,将“文本输入”拖曳到Kettle工作区。按住Ctrl同时选中“表输出”和“文本文件输出”并右击,从弹出的快捷菜单中选择“新建节点连接”命令,在弹出的窗口中选择“起始步骤”和“目标
2021-10-06 12:11:17
833
原创 数据清洗第二章读书笔记
1.基于ETL的数据清洗1.1 ETL的概念ETL是英文Extract-Transform-Load的缩写,用来描述将数据从源端经过抽取、转换、加载至目的端的过程。企业中常用的ETL实现有多种方法,常见方式如下:(1)借助ETL工具。(2)编写SQL语句。(3)将ETL工具和SQL语句结合起来使用。1.2 ETL的体系结构ETL主要是用来实现异构数据源数据集成的,多种数据源的所有原始数据大部分未作修改就被载入ETL,集成后的数据被置于数据库的数据表和数据仓库的维度表中。图中数据源1和数据源
2021-10-04 16:16:00
317
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人