自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据清洗黑马程序员 第八章综合案例——构建DVD租赁商店数据仓库——阅读笔记(4)

8.3.9加载租赁数据至租赁事实表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_fact_rental,并添加表输入控件、字段选择控件、过滤记录控件、计算器控件、增加常量控件、数据库查询控件、维度查询/更新控件、插入/更新控件以及Hop跳连接线,如图1所示:图1创建转换load_fact_rental2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配...

2021-11-15 23:07:05 6156 1

原创 数据清洗黑马程序员 第八章综合案例——构建DVD租赁商店数据仓库——阅读笔记(3)

8.3.7加载演员数据至演员维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图1所示:图1创建转换load_dim_actor2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图2所示:图2配置数据库连接在SQL框中编写SQL语句,用于获取字段ac...

2021-11-15 21:43:26 4554

原创 数据清洗黑马程序员 第八章综合案例——构建DVD租赁商店数据仓库——阅读笔记(2)

8.3.5加载用户数据至用户维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图1所示:tu 1创建转换load_dim_customer2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图2所示:图2 配置数据...

2021-11-15 18:45:39 524

原创 数据清洗黑马程序员 第八章综合案例——构建DVD租赁商店数据仓库——阅读笔记

8.3 案例实现8.3.2加载日期数据至日期维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图1所示。图1创建转换2.配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、...

2021-11-06 20:21:16 1633

原创 ETL数据整合与处理——实例

1.Excel输入1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换,并添加Excel输入控件,具体如图1所示:图1创建转换2.配置“Excel输入”控件双击“Excel输入”控件,进入“Excel输入”配置界面,单击“浏览”按钮,选择物理成绩.xls;单击“增加”按钮,具体效果如图2所示;单击“工作表”选项卡,获取工作表,如图3所示;单击“字段”选项卡,添加字段,如图4所示:图2配置“文件”选项卡图3配置“工作表”选项卡图4...

2021-10-30 22:54:37 904

原创 数据清洗 黑马程序员 第七章 数据加载——阅读笔记

7.1数据加载机制数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。7.1.1全量加载案例实现数据准备假设,现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。数据表full_sour..

2021-10-24 22:12:48 2090

原创 数据清洗黑马程序员第六章数据转换——阅读笔记

6.1多数据源的合并随着信息技术的发展和科技的进步,人类步入了大数据时代,大数据作为当前高科技时代的产物,它的种类多而繁杂。如果想要得到需要的数据,则这些需要的数据有可能来源于多个不同的数据源中,此时,我们可以将多个数据源进行合并操作,从而获取到所需要的数据。案例实现数据准备假设,某公司旗下有两个子公司,分别为A公司和B公司,且这两个子公司均在销售手机,其中A公司的手机日销售情况存储在CSV文件中,即文件company_a.csv;B公司的手机日销售情况存储在数据库的数据表中,即数据表co.

2021-10-24 18:07:27 1759 1

原创 数据清洗 黑马程序员 第五章数据的清洗与检验——阅读笔记

4.1 抽取文本数据在实际应用中,常用的文本文件类型有两种,分别是TSV文件和CSV文件。4.1.1 TSV文件的抽取1.打开Kettle工具,创建转换使用Kettle工具创建一个转换tsv_extract,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线,用于实现TSV文件数据的抽取功能,具体如下图1所示:...

2021-10-12 19:33:58 1079

原创 数据清洗 黑马程序员 第四章数据抽取——阅读笔记

4.1 抽取文本数据在实际应用中,常用的文本文件类型有两种,分别是TSV文件和CSV文件。4.1.1 TSV文件的抽取1.打开Kettle工具,创建转换使用Kettle工具创建一个转换tsv_extract,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线,用于实现TSV文件数据的抽取功能,具体如下图1所示:图1 创建转换tsv_extract2.1.2 CSV文件的抽取...

2021-09-29 11:42:56 1540

原创 数据清洗黑马程序员 第3章Kettle工具的基本使用 --学习笔记

3.1 Kettle简介3.1.1 Kettle概述 Kettle是一款国外免费开源的轻量级ETL工具,是基于Java语言开发的,可以在Windows、Linux、UNIX系统上运行。 Kettle工具主要由4个组件组成,分别是Spoon、Pan、Kitchen及Carte组件,具体功能介绍如下。> Spoon是Kettle集成开发环境,它会提供一个基于SWT的图形用户界面,主要用于构建ETL Jobs(作业)和Transformations(转换),也可用于执...

2021-09-18 13:20:53 1809 1

原创 2021-09-08

数据清洗第一章数据清洗概述——阅读笔记数据中会夹杂着不完整、重复及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。所以,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.1 数据清洗的背景数据质量的评价在企业战略决策中占据着重要的地位。1.1.1 数据质量概述数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。从适用性的角度看,数据质量是一个相对的概念(与决策有关)。数据质量的显著特点如下:“业务需求”会随时间变化,数据

2021-09-08 21:43:18 485

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除