自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 第八章 综合案例——构建DVD租赁商店数据仓库(3)

一、加载演员数据至演员维度表操作介绍:通过Kettle工具加载演员数据至演员维度表dim_actor。1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示。2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。...

2021-11-27 15:27:09 486

原创 第八章 综合案例——构建DVD租赁商店数据仓库(2)

一、加载用户数据至用户维度表操作介绍:通过Kettle工具加载用户数据至用户维度表dim_customer。1.打开Kettle工具,创建转换load_dim_customer使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配...

2021-11-26 17:08:38 494

原创 第八章 综合案例——构建DVD租赁商店数据仓库(1)

一、加载日期数据至日期维度表操作介绍:下面通过Kettle工具加载日期数据至dim_date日期维度表。1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。2.配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面。在“限制”处添加生成的日期,默认为10,这里改为3...

2021-11-26 00:01:38 605

原创 第七章 数据加载

一、全量加载假设,现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。数据表full_source和full_target的内容如图所示。数据表full_source数据表full_target1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换full_load,并添加执行SQL脚本控件、表输入控件、表输出控件以及Hop跳连接线...

2021-11-23 20:42:52 828

原创 第六章 数据转换

一、实 现 对 文 本 文 件personnel_data.txt中 的 数 据 进 行 数 据 粒 度 的 转 换 ,即 将 文 本 文 件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。1.打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控...

2021-11-22 16:01:26 142

原创 Kittle案例(Excel输入,生成记录,生成随机数,获取系统信息,排序记录,去除重复记录,替换NULL值)

一、Excel输入1.创建转换将要处理的文件保存到Excel表中,然后打开kettle创建一个转换并命名,拖入“Excel输入”控件。2.配置Excel输入控件浏览导入Excel文件。单击【浏览(B)…】按钮,在计算机上浏览并导入“物理成绩.xls”文件,如图所示。添加并编辑Excel文件。单击【增加】按钮,将浏览导入至【文件/目录】输入框中的“E:\课件\ETL\55220-ETL数据整合与处理(Kettle)-实验数据和工程\第2章\数据”文件,添加至...

2021-11-19 21:43:50 1527

原创 第五章 数据的清洗与检验

一、对文件merge.csv进行完全去重。1.打开Kettle工具,创建转换 通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。2.配置CSV文件输入控件 双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,单击【浏览】按钮,选择要进行完全去重处理的CSV文件merge.csv;再单击【获取字段】按钮,Kettle会自动检索CSV文件,并对文件中的字段类...

2021-10-24 00:15:59 199

原创 第四章 数据清洗

一、csv文件的抽取1.打开Kittle工具,创建转换 使用Kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,用于实现CSV文件数据的抽取功能,具体如图所示。2.配置“CSV文件输入”控件 双击“CSV文件输入”控件进入“CSV文件输入”界面,单击下图中“浏览”按钮,选择要抽取的文件csv_extract.csv ;单击“获取字段”按钮,Kettle自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等...

2021-10-11 19:56:22 282

原创 Kittle转换和作业

一、转换 转换是ETL解决方案中重要的组成部分之一,它主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,例如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过跳来连接的,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。实例:实现从数据库中读取数据,并把数据写到文本文件中1.创建转换 双击Ket...

2021-10-10 18:02:39 911

原创 第一章 数据清洗概述

前言 近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能,它们都绕不开“数据”这个主题。 ​​​ 由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.1 数据清洗的背景 当今时代,企业信息化的要求越来越迫切。对于...

2021-09-12 18:55:02 1711

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除