- 博客(12)
- 问答 (1)
- 收藏
- 关注
原创 数据清洗第八章作业(8.3.7-8.3.8)
8.3.7 加载演员数据至演员维度表1.打开Kettle工具,创建转换,load_dim_actor,并添加“表输入”控件、“插入/更新”控件以及Hop跳连接线。2.配置“表输入”控件,点击“表输入”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮。在SQL框编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为1970-01-01, 00:00:00并赋值给临时字段max_dim_actor_last_update;单击“预览
2021-11-19 22:13:58
244
1
原创 数据清洗第八章作业(8.3.5-8.3.6)
一、加载用户数据至用户维度表1.打开Kettle工具创建转换load_dim_customer,并添加“表输出”控件、“映射(子转换)”控价、“字段选择”控件、值映射控件、“维度查询/更新”控件,以及Hop跳连接线。2.配置“表输入”控件,进入“表输入”界面单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮在SQL数据框中编写用于获取字段customer_last_update中的最大值,将该值替换成1970-01-01 00:00:00并赋值给临时字段max_dim_custome
2021-11-19 21:26:42
224
原创 数据清洗第八章作业(8.3.2-8.3.4)
一.加载日期数据至数据维度表1.打开Kettle工具创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线。2.配置“生成记录控件”,双击生成记录界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年日期(10*365);在“字段”框添加字段language(语言),country_code(国家码),initial_date(初始化日期),对生成的日期进行初始化。3.配置“增加序列”控价
2021-11-19 20:45:26
239
原创 全量加载和增量加载例子
一.全量加载现有两张数据表,分别为full_source和fulltarget,其中full_source为源数据表,full_target为目标数据表,数据表Full_source和full_target,使用Kettle工具,实现将full_source中的数据全量加载到数据表full_target中。1.使用Kettle工具创建转换full_load,并添加“执行SQL脚本”控件,“表输入控件",“表输出控件”,以及Hop连接线。双击执行SQL脚本控件,进入执行SQL语句界面2.配置数据库
2021-11-19 19:58:05
553
原创 数据清洗例子
1.Excel输入双击“Excel输入”控件,进入Excel输入控件界面,首先点击“文件”,选择“浏览”按钮,找到物理成绩.xls文件,选择“增加”按钮,如图1所示;然后点击“工作表”,获取工作表名称;最后点击“字段”按钮,添加字段,点击“预览记录”得到数据,具体如下图所示。2.生成记录双击“生成记录”控件,进入生成记录控件界面,首先将限制参数改为12,然后在“字段表”中,对各字段的参数进行设置,最后点击“预览”按钮,弹出“输入预览记录数”对话框,预览记录数采用默认值,单击“确定”按钮。弹出“预览
2021-11-18 21:36:41
429
原创 数据清洗第六章作业
1.打开kettle工具,新建转换使用kettle工具,创建一个转换generalization,并添加相应的控件,具体效果如图6-1所示:图6-1 创建转换generalization2.配置文本文件输入控件6-2 配置文本文件选项卡6-3 配置内容选项卡6-4 配置字段选项卡3.配置字段选择控件6-5 字段选择选项卡的配置4.配置排序记录控件6-6 配置排序记录控件5.配置表输入控件图6-7.完成数据库的连接编写SQL语句完成数据库的连接,最后的配置情况如图所示
2021-11-17 22:10:59
802
原创 浏览器页面被篡改
当浏览器页面被篡改,点击属性,打开,若其.exe后还有一些乱七八糟的后缀,删点桌面快捷方式,再打开原浏览器的地址,重新创建快捷方式就好。
2021-10-17 19:22:13
290
原创 数据清洗读书笔记4(通过Kettle工具,对文件进行完全去重以及缺失值的填充)
一.对文件merge.csv进行完全去重1.打开kettle工具,创建转换使用kettle工具创建转换repeat_transform,并添加“CSV文件输入控件”“唯一行(哈希值)”控件以及Hop跳连接线,具体效果如图5-1所示:图5-1 创建转换repeat_transform2.配置“CSV文件输入”控件双击图5-1中的“CSV文件输入”控件,进入其界面,单击“浏览”按钮,选择要进行完全去重处理的CSV文件merge.csv,如图5-2所示:图5-2 选择要进行完全去重处理的CSV文
2021-10-11 22:30:09
864
原创 ubuntu16.04启动没有图形界面只有命令行
之前用过,卸载之后重新安装,打开只有命令行没有图形界面。在网上荡了好多,试了很多,只有这个奏效了(安装了cuda但不是这个的问题)菜狗卑微的记录命令:sudo apt-get install lightdmsudo apt-get install ubuntu-desktopsudo apt-get install unitysudo service lightdm restart然后重启即可。...
2021-09-30 17:26:15
4056
5
原创 数据清洗读书笔记3(CSV文件的抽取以及JSON文件的抽取)
一.CSV文件的抽取1.打开Kettle工具,创建转换使用Kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,用于实现CSV文件数据的抽取功能,具体效果如图4-1所示:图4-1 创建转换csv_extract2.配置“CSV文件输入”控件双击图4-1中的“CSV输入控件”,进入界面,单击浏览按钮,选择要抽取的文件csv_extract.csv,具体如图4-2所示:图4-2“CSV文件”输入界面单击图4-2中的获取字段按钮,Ket
2021-09-28 23:44:52
264
原创 数据清洗学习笔记 2(用Kettle实现一个转换和一个作业的例子)
用kettle实现一个转换一个作业的例子实践一.用kettle 实现一个转换1.双击kettle 目录下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”→“新建”→“转换”命令,创建一个转换,名字默认是“转换1”如图3-1所示:图3-1 创建转换2.在图3-1中选择“文件”→“保存”命令,可以对转换实现重命名以及选择转换保存路径,重命名转换为example1,如图3-2和3-3 所示:图3-2图3-3 重命名转换为example13.在3-3中,主对象树中的节点主要
2021-09-21 21:54:43
418
原创 数据清洗读书笔记1
第一章.数据清洗概述由于海量的数据来源是广泛的,数据类型也是多尔繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性以及效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.1数据清洗的背景1.1.1数据质量概述概念: 数据质量是指在业务环境下,数据符合数据消费者的使用目的,能能满足业务场景具体需求的程度。从适用性的角度来看,数据质量是以一个相对的概念(与决策者有关),不同的决策者对数据质量的高低要求也是不同的。数据质
2021-09-12 19:18:38
282
空空如也
安装ubuntu16.04打开只有命令行,无图形化界面!(救命)
2021-09-30
TA创建的收藏夹 TA关注的收藏夹
TA关注的人