- 博客(10)
- 收藏
- 关注
原创 《数据清洗》 第八章 综合案例(8.3.7-8.3.8)
1.加载演员数据至演员维度表1.1打开kettle工具,创建转换创建转换load_dim_actor,并添加“表输入”控件、“插入/更新”控件以及Hop跳连接线1.2配置“表输入”控件点击“表输入”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮在SQL框中编辑SQL语句,而后单击“预览”按钮1.3配置“表输入2”控件点击“表输入2”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮在SQL框中..
2021-12-11 22:57:12
1453
原创 《数据清洗》 第八章 综合案例(8.3.5-8.3.6)
目录1.加载用户数据至用户维度表1.1.1打开Kettle工具,创建转换1.1.2配置“表输入”控件1.1.3配置“表输入2”控件1.2.1打开Kettle工具,创建转换1.2.2配置“映射输入规范”控件1.2.3配置“数据库查询”控件1.2.4配置“数据库查询2”控件1.2.5配置“数据库查询3”控件1.2.6配置“过滤记录”控件1.2.7配置“JavaScript代码”控件1.2.8配置“字段选择”控件1.2.9配置“映射”控件1.2.10配置“字
2021-12-11 22:24:44
1740
原创 《数据清洗》 第八章 综合案例(8.3.2-8.3.4)
目录1.加载日期数据至日期维度表(8.3.2)1.1打开kettle工具,创建转换1.2配置“生成记录”控件1.3配置“增加序列”控件1.4配置“JavaScript代码”控件1.5配置“表输出”控件1.6运行转换load_dim_data1.7查看维度表dim_data中的数据2.加载日期数据至时间维度表(8.3.3)2.1打开kettle工具,创建转换2.2配置“生成记录”控件2.3配置“增加序列”控件2.4配置“JavaScript代码”控件2.
2021-12-11 21:58:35
1458
原创 《数据清洗》 第七章 数据加载
学习目标:提示:这里可以添加学习目标例如:一周掌握 Java 入门知识学习内容:提示:这里可以添加要学的内容例如:1、 搭建 Java 开发环境2、 掌握 Java 基本语法3、 掌握条件语句4、 掌握循环语句学习时间:提示:这里可以添加计划学习的时间例如:1、 周一至周五晚上 7 点—晚上9点2、 周六上午 9 点-上午 11 点3、 周日下午 3 点-下午 6 点学习产出:提示:这里统计学习计划的总量例如:1、 技术笔记 2 遍2、优快云 技术博客
2021-12-11 20:48:45
270
原创 《ETL数据整合与处理(Kettle)》 第二章 源数据获取
1.Excel输入1.1建立转换工程创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中1.2设置参数双击【Excel输入】组件,弹出【Excel输入】对话框,其中显示默认的【文件】对话框单击【浏览(B)…】按钮,在计算机上浏览并导入“物理成绩.xls”文件,添加并编辑Excel文件。单击【增加】按钮,将浏览导入至【文件或目录】输入框中的“文件,添加至【选中的文件】表中单击【显示文件名称…】按钮,弹出【..
2021-11-19 23:02:02
1655
原创 《数据清洗》 第六章 数据转换
1.对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt中1.1转换granularity1.1.1打开kettle工具,创建转换创建转换granularity,添加“表输入”、“字段选择”、“排序记录”、“记录集连接”、“过滤记录”、“空操作”、“表输出”控件及hop跳连接线1.1.2配置文本文件
2021-11-19 17:56:30
4365
原创 《数据清洗》 第五章 数据的清洗与检验
1.对文件merge.csv进行完全去重1.1数据准备1.2打开kettle工具,新建转换创建转换repeat_transform,并添加“CSV文件输入”、“唯一行(哈希值)”以及hop跳连接线;1.3配置“CSV文件输入”控件进入“CSV文件输入”界面,选择要进行完全去重处理的CSV文件merge.csv,获取字段自动检索CSV文件预览查看CSV文件merge.csv的数据已成功加载到CSV文件输入流中1.4配置“唯一行(哈希值)”控件进入“唯一...
2021-11-18 12:48:49
964
原创 《数据清洗》 第四章 数据抽取
目录1.抽取CSV文件2.抽取JSON文件1.抽取CSV文件1.1打开kettle工具,创建转换创建转换csv_extract,并添加“CSV文件输入”、“表输出”及hop跳连接线,用于实现CSV文件数据的抽取功能。1.2配置“CSV文件输入“控件”双击“CSV文件”控件,选择要抽取的文件csv_extract.csv;单击“获取字段”,kettle自动检索CSV文件并对其中字段类型、格式、长度、精度等属性进行分析;单击“浏览”,文件数据已成功抽取到CSV文件输入流中.
2021-11-17 22:35:53
1130
原创 《数据清洗》 第三章 Kettle工具的基本使用
一个数据抽取过程主要包括创建一个作业,并且每个作业可以包括多个转换操作。此数据抽取过程可通过Kettle工具完成,也可以通过编写程序调用的方式实现。3.1 转换转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。例如:一周掌握 Java 入门知识学习内容:提示:这里可以添加要学的内容例如:1、 搭建 Java 开发环境2、 掌握 Java 基本语法3、 掌握条件语句4、 掌握循环语句学习时间:提示:这
2021-11-17 15:39:25
639
原创 《数据清洗》 第一章 数据清洗概述
由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行行效的清洗是大数据分析和应用过程中的关键环节。本章将针对数据清洗的相关知识进行详细讲解。
2021-09-12 15:29:05
2420
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅