- 博客(10)
- 收藏
- 关注
原创 综合案例--构建DVD租赁商店数据仓库
一.加载演员数据至演员维度表1.使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线2.配置表输入控件(1)双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮(2)在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_actor_last_updat..
2021-11-18 14:04:18
353
原创 综合案例——构建DVD租赁商店数据仓库
四.加载用户数据至用户维度表1.创建转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线2.配置表输入控件(1)双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮(2)在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_u
2021-11-18 00:02:38
401
原创 综合案例——构建DVD租赁商店数据仓库
一.加载日期数据至日期维度表1.创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线2.双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、initial_date(初始化的日期),对生成的日期进行初始化3.配置“增加序列.
2021-11-17 22:26:24
720
原创 数据加载--读书笔记
一.现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。数据表full_source和full_target的内容如表所视,通过使用Kettle工具,实现将数据表full_source中的数据全量加载到数据表full_target中1.创建转换full_load,添加“执行SQL脚本”控件、“表输入”控件、“表输出”控件及Hop跳连接线2.配置“执行SQL脚本”控件(1)双击“
2021-11-09 22:09:17
666
原创 《ETL数据整合与处理》--读书笔记
一.Excel输入1.使用Ctrl+N快捷键,创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中二.生成记录三.生成随机数四.获取系统信息五.排序记录六.去除重复记录七.替换NULL值...
2021-11-09 15:51:02
361
原创 数据转换--读书笔记
1.对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt中。(1)创建转换generalization,并添加各控件及Hop跳连接线(2)配置文本文件输入控件,双击“文本文件输入”控件,单击“浏览”,选择抽取文件,单击“增加”,将要抽取的文件添加到转换中单击“内容”选项卡,在分隔符处清除“;”,单击【I
2021-10-25 10:18:16
84
原创 数据的清洗与检验--读书笔记
一.对文件merge.csv进行完全去重1.创建转换repeat_transform,并添加控件及Hop跳连接线2.配置"csv文件输入"控件3.单击“预览”,查看CSV文件merge.csv的数据是否加载到CSV文件输入流中4. 进入“唯一值(哈希值)”界面,单击“获取”添加需要去重的字段5.单击转换工作区顶部的“运行”按钮,运行转换,实现消除CSV文件merge.csv中完全重复的数据6.选中执行窗口的“唯一行(哈希值)”控件,单击执行窗口的Preview..
2021-10-11 20:15:54
96
原创 ETL-数据抽取
一.抽取CSV文件数据1.创建转换csv_extract,并添加“CSV文件输入”控件,“表输出”控件以及Hop跳连接线2.进入“csv文件输入”界面,选择抽取的文件3.获取字段,并对文件中的字段类型、格式、长度、精度等属性进行分析4.预览文件中的数据是否抽取到csv文件输入流中5.进入“表输出”控件6.配置数据库连接7.选择输出的目标表8.指定数据库字段,用于将数据表csv的字段和CSV文件中的字段进行匹配9.选择“数据库字段”10....
2021-09-29 19:44:18
1382
原创 数据清洗---读书笔记
1. 数据清洗的背景1.1 数据清洗的原因:数据的来源是广泛的,数据的类型是多而繁杂的,所以数据中会夹杂着不完整、重复以及错误的数据,直接使用会影响数据决策的准确性和效率。所以,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.2 数据质量1.2.1 概念:数据质量指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求程度。1.2.2 特点:(1)“业务需求”会随时间变化,数据质量也会随时间发生变化。(2)数据质量可以借助信息系统度量,但独立于信息系统
2021-09-12 18:13:20
624
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人