- 博客(10)
- 收藏
- 关注
原创 Kettle:综合案例--构建DVD租赁商店数据仓库3
目录1.加载演员数据至演员维度表2.加载电影数据至电影维度表1.加载演员数据至演员维度表(1)创建转换使用Kettle工具,创建一个转换,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示(2)配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970
2021-11-12 20:03:00
1015
1
原创 Kettle:综合案例--构建DVD租赁商店数据仓库2
目录1.加载用户数据至用户维度表2.加载商店数据至商店维度表1.加载用户数据至用户维度表(1)创建转换使用Kettle工具,创建一个转换,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示2.加载商店数据至商店维度表...
2021-11-10 20:21:33
2074
原创 Kettle:综合案例--构建DVD租赁商店数据仓库
目录1.加载日期数据至日期维度表2.加载时间数据至时间维度表3.加载员工数据至员工维度表1.加载日期数据至日期维度表(1)创建转换使用Kettle工具,创建一个转换,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示(2)配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语
2021-11-04 22:31:26
2367
原创 Kettle:数据加载
本文数据源自《数据清洗》(黑马程序员编著)教材配套数据文件一、现有两张数据表,分别为full_source和full_target,其中full_source为源数据表,full_target为目标数据表。两数据表内容如下图所示:full_source:full_target:使用kettle工具,实现将数据表中full_source中的数据全量加载到数据表full_target中。1.创建转换使用Kettle工具,创建一个转换,并添加执行SQL脚本控件、表输入控件、..
2021-11-02 21:03:28
427
原创 Kettle:源数据获取与处理
目录1.Excel输入2.生成记录3.生成随机数4.获取系统信息5.排序记录6.去除重复记录7.替换NULL值1.Excel输入创建一个新转换,并将Excel输入控件拉入kettle工作区,效果如下:双击Excel输入控件进入其配置界面,单击‘浏览’按钮选择Excel文件,并单击‘增加’按钮将其加入到“选中的文件”中,(可同时添加多个文件)效果如下:单击【工作表】选项卡,单击‘获取工作表名称’按钮,在弹出的窗口中单击选中可用的项目,单击‘>’将该项.
2021-11-02 17:50:45
1584
3
原创 Kettle数据转换
目录1.数据粒度的转换2.数据的商务规则计算数据准备:本文章使用的数据来自一个名为personnel_data.txt的文本文档,其内容如下图所示,本次将对该文件进行数据粒度的转换以及数据的商务规则计算1.数据粒度的转换(1)创建转换使用Kettle工具,创建一个转换,并添加文本文件输入控件、字段选择控件、排序记录控件、记录集连接控件、过滤控件、空操作控件、文本文件输出控件以及Hop跳连接线,具体如图所示:(2)配置“文本文件输入”控件双击“文本文件输入”控件
2021-10-20 20:53:51
5363
1
原创 Kettle:数据去重与缺失值处理
目录1.对文件merge.csv进行完全去重2.对文件people_survey.txt.中的缺失值进行填充本文章使用的数据文件为《数据清洗》(黑马程序员编著)教材配套资源1.对文件merge.csv进行完全去重(1)数据准备本次使用的数据文件名为merge.csv,其中包含9条记录,三个属性(姓名、性别,所在城市),其内容如下图:(2)创建转换使用Kettle工具创建一个转换(保存可修改转换名称),并添加“csv文件输入”、“唯一行(哈希值)”(位于转换步骤中)控件
2021-10-14 17:39:22
2947
原创 Kettle:CSV文件、JSON文件数据的抽取
目录1.CSV文件的数据抽取2.JSON文件的数据抽取1.CSV文件的数据抽取打开Kettle,依次点击 文件 -> 新建 -> 转换,创建新转换(保存可修改转换名)。点击核心对象,展开输入步骤,选中CSV文件输入控件,拖入Kettle工作区;展开输出步骤,选中表输出控件,拖入Kettle工作区,并用Hop跳线连接两个控件(Ctrl同时选中两个控件,单击右键,新建节点连接):配置CSV文件输入控件。双击CSV文件控件,可出现如下界面:单击“浏览”,可选择要抽.
2021-10-08 22:10:08
589
原创 Kettle转换与作业
目录1.Kettle相关概念2.转换实操3.作业实操1.Kettle相关概念一个数据抽取过程主要包括创建一个作业,并且每个作业可以包括多个转换操作,此数据抽取过程可以通过kettle工具完成。Kettle工具的执行分为两个层次及转换和作业,这两个层次最主要的区别在于数据传递和执行方式。转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到.
2021-09-15 21:22:27
3783
原创 数据清洗(黑马程序员著) 第一章读书笔记
现实生活中,我们接触到的数据是海量的,来源广泛的,类型繁杂的。这些原始的数据夹杂着不完整、重复以及错误的数据,如果直接使用,会严重的影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.数据质量的评价指标数据清洗的目的是为了将脏数据洗掉,提高数据质量。而数据质量的评价指标包括四方面:(1)准确性指要求数据中的噪声尽可能小。对于数据中偏离常规、分散小的数据,一般就视为是噪声或异常值,可通过常用的异常值检测方法聚类进行处理。(2)完整性指数据信
2021-09-09 21:03:31
899
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人