自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 《数据清洗》 第八章 综合案例(8.3.7-8.3.8)

1.加载演员数据至演员维度表1.1打开kettle工具,创建转换创建转换load_dim_actor,并添加“表输入”控件、“插入/更新”控件以及Hop跳连接线1.2配置“表输入”控件点击“表输入”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮在SQL框中编辑SQL语句,而后单击“预览”按钮1.3配置“表输入2”控件点击“表输入2”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮在SQL框中..

2021-12-11 22:57:12 1453

原创 《数据清洗》 第八章 综合案例(8.3.5-8.3.6)

目录1.加载用户数据至用户维度表1.1.1打开Kettle工具,创建转换1.1.2配置“表输入”控件1.1.3配置“表输入2”控件1.2.1打开Kettle工具,创建转换1.2.2配置“映射输入规范”控件1.2.3配置“数据库查询”控件1.2.4配置“数据库查询2”控件1.2.5配置“数据库查询3”控件1.2.6配置“过滤记录”控件1.2.7配置“JavaScript代码”控件1.2.8配置“字段选择”控件1.2.9配置“映射”控件1.2.10配置“字

2021-12-11 22:24:44 1740

原创 《数据清洗》 第八章 综合案例(8.3.2-8.3.4)

目录1.加载日期数据至日期维度表(8.3.2)1.1打开kettle工具,创建转换1.2配置“生成记录”控件1.3配置“增加序列”控件1.4配置“JavaScript代码”控件1.5配置“表输出”控件1.6运行转换load_dim_data1.7查看维度表dim_data中的数据2.加载日期数据至时间维度表(8.3.3)2.1打开kettle工具,创建转换2.2配置“生成记录”控件2.3配置“增加序列”控件2.4配置“JavaScript代码”控件2.

2021-12-11 21:58:35 1458

原创 《数据清洗》 第七章 数据加载

学习目标:提示:这里可以添加学习目标例如:一周掌握 Java 入门知识学习内容:提示:这里可以添加要学的内容例如:1、 搭建 Java 开发环境2、 掌握 Java 基本语法3、 掌握条件语句4、 掌握循环语句学习时间:提示:这里可以添加计划学习的时间例如:1、 周一至周五晚上 7 点—晚上9点2、 周六上午 9 点-上午 11 点3、 周日下午 3 点-下午 6 点学习产出:提示:这里统计学习计划的总量例如:1、 技术笔记 2 遍2、优快云 技术博客

2021-12-11 20:48:45 270

原创 《ETL数据整合与处理(Kettle)》 第二章 源数据获取

1.Excel输入1.1建立转换工程创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中1.2设置参数双击【Excel输入】组件,弹出【Excel输入】对话框,其中显示默认的【文件】对话框单击【浏览(B)…】按钮,在计算机上浏览并导入“物理成绩.xls”文件,添加并编辑Excel文件。单击【增加】按钮,将浏览导入至【文件或目录】输入框中的“文件,添加至【选中的文件】表中单击【显示文件名称…】按钮,弹出【..

2021-11-19 23:02:02 1655

原创 《数据清洗》 第六章 数据转换

1.对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt中1.1转换granularity1.1.1打开kettle工具,创建转换创建转换granularity,添加“表输入”、“字段选择”、“排序记录”、“记录集连接”、“过滤记录”、“空操作”、“表输出”控件及hop跳连接线1.1.2配置文本文件

2021-11-19 17:56:30 4365

原创 《数据清洗》 第五章 数据的清洗与检验

1.对文件merge.csv进行完全去重1.1数据准备1.2打开kettle工具,新建转换创建转换repeat_transform,并添加“CSV文件输入”、“唯一行(哈希值)”以及hop跳连接线;1.3配置“CSV文件输入”控件进入“CSV文件输入”界面,选择要进行完全去重处理的CSV文件merge.csv,获取字段自动检索CSV文件预览查看CSV文件merge.csv的数据已成功加载到CSV文件输入流中1.4配置“唯一行(哈希值)”控件进入“唯一...

2021-11-18 12:48:49 964

原创 《数据清洗》 第四章 数据抽取

目录1.抽取CSV文件2.抽取JSON文件1.抽取CSV文件1.1打开kettle工具,创建转换创建转换csv_extract,并添加“CSV文件输入”、“表输出”及hop跳连接线,用于实现CSV文件数据的抽取功能。1.2配置“CSV文件输入“控件”双击“CSV文件”控件,选择要抽取的文件csv_extract.csv;单击“获取字段”,kettle自动检索CSV文件并对其中字段类型、格式、长度、精度等属性进行分析;单击“浏览”,文件数据已成功抽取到CSV文件输入流中.

2021-11-17 22:35:53 1130

原创 《数据清洗》 第三章 Kettle工具的基本使用

一个数据抽取过程主要包括创建一个作业,并且每个作业可以包括多个转换操作。此数据抽取过程可通过Kettle工具完成,也可以通过编写程序调用的方式实现。3.1 转换转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。例如:一周掌握 Java 入门知识学习内容:提示:这里可以添加要学的内容例如:1、 搭建 Java 开发环境2、 掌握 Java 基本语法3、 掌握条件语句4、 掌握循环语句学习时间:提示:这

2021-11-17 15:39:25 639

原创 《数据清洗》 第一章 数据清洗概述

由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行行效的清洗是大数据分析和应用过程中的关键环节。本章将针对数据清洗的相关知识进行详细讲解。

2021-09-12 15:29:05 2420

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除