自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 第八章 综合案例——构建DVD租赁商店数据仓库

sakila样本数据库是MySQL官方提供的一个模拟DVD租赁商店管理的数据库。本章,我们将综合运用前面几章的知识,对数据库sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标数据仓库中。

2022-11-10 11:13:00 475

原创 第八章(无人售货机零售项目实战)

无人售货机客户订单信息表记录着有关客户的订单信息。从客户的角度出发,分析客户订单信息表中的数据,了解客户订单状况,按照客户订单数据进行聚合计算,对客户订单消费金额从高到低进行排序,了解哪些客户的消费金额较多,并为这些客户提供更好的服务。

2022-11-02 11:51:15 2296

原创 二进制原码,反码,补码,移码

二进制

2022-11-01 18:22:19 1652

原创 第二章(简述不符合要求数据的清洗流程)

数据清洗,顾名思义就是将要用到的数据中重复、多余部分的数据进行筛选并清除;把缺失部分补充完整,并将不正确的数据纠正或者删除。最后整理成可以进一步加工、使用的数据。

2022-10-30 10:48:08 995

原创 第一章(简述数据清洗的基本流程)

由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。

2022-10-30 10:41:18 5290 1

原创 SQL文件输出(kettle)

SQL文件是一个包含SQL语句的文本文件,后缀用“.sql”表示。SQL文件输出是将数据生成可执行的SQL语句,并装载至后缀为“.sql”的文本文件中。为了使用SQL语句生成数据,需要对MySQL的“demodb”数据库“2020年1月月考数学成绩”表中的数据,使用SQL文件输出组件,迁移和装载至“2020年1月_月考数学成绩.sql”文件。

2022-10-28 17:19:34 1012

原创 文本文件输出(kettle)

文本文件输出是将数据装载到文本文件中。为了备份数据,需要对MySQL的“demodb”数据库“2020年1月月考数学成绩”表中数据,使用文本文件输出组件,迁移和装载至“2020年1月月考数学成绩.txt”文件。

2022-10-28 17:00:12 876

原创 迁移和装载(Excel输出)

Excel输出是将数据装载至Excel文件的工作表中。为了统计分析联考的考试成绩,需要对“2020年1月联考成绩.csv”文件中的数据,使用Excel输出组件,迁移和装载至Excel文件中的工作表。

2022-10-26 12:20:40 93

原创 迁移和装载(插入/更新)

插入/更新是对数据库中表的数据进行插入或更新操作。为了查询1班、2班学生考试分数的排名情况,需要对“2020年1月月考2班数学成绩.xls”文件中的数据,使用插入并更新组件,迁移并装载至MySQL的“demodb”数据库中的“2020年1月月考数学成绩”表。

2022-10-26 12:16:40 208

原创 迁移和装载(表输出)

表输出是将数据装载至数据库的表中。为了方便使用数据库查询和统计学生的考试成绩,需要对“2020年1月月考1班数学成绩.xls”文件的数据,使用表输出组件,迁移和装载至MySQL中“demodb”数据库。

2022-10-26 12:09:24 193

原创 获取变量(kettle)

在Kettle中,获取变量可以获得系统环境变量和用户自定义变量的值。某生产系统定时每天推送前两天的、名称格式为yyyyMMdd的数据文件,为了获得已设置好的日期变量并每天读取前两天的数据文件,需要使用获取变量组件,获取5.7小节中用户自定义的fileDate变量。

2022-10-26 11:21:56 3079

原创 设置变量(kettle)

在Kettle中,读者可通过获得系统信息组件获得系统环境变量,也可以通过设置变量,定义虚拟机和任务中的变量。在项目中,经常利用生产环境或外围系统交互的FTP文件接口,获取固定格式的数据文件。

2022-10-26 11:05:56 5069

原创 JavaScript代码

Kettle提供用户界面,可采用JavaScript脚本编程修改数在某年级的“2020年4月月考成绩.xls”文件中,为了了解每个学生考试的总分,需要使用JavaScript代码组件,统计每个学生月考成绩的总分等。

2022-10-26 10:38:01 392

原创 建立利用Janino计算Java表达式转换工程

在某年级的“2020年4月月考成绩.xls”文件中,为了了解学生的考试情况,需要采用利用Janino计算Java表达式组件,统计每个学生月考成绩的总分,并按照四舍五入的方法,计算每个学生的平均分。

2022-10-21 18:19:14 114

原创 建立公式转换工程

公式是用来计算数据流中数据的表达式。公式可以是“A+B”这样的简单计算,也可以是类似“if/then”复杂业务逻辑判断的表达式。

2022-10-21 18:15:32 96

原创 建立单变量统计转换工程

单变量统计是对数据进行单个变量的数据统计,以字段为单变量,可以分别对多个字段进行数据统计,统计类型有N(统计数量)、最小值、最大值、平均值、样本标准差、中位数和任意百分位数等。

2022-10-21 17:57:43 107

原创 建立多路数据合并连接转换工程

记录集连接是两个记录集的合并,而3个及以上的记录集,采用多路数据合并连接的方式。多路数据合并连接英文名称为Multiway merge join,是对多个记录集的合并,效率更高,速度更快。

2022-10-21 17:53:49 286

原创 建立记录集连接转换工程

记录集连接是将具有相同关键字字段的两个记录表进行合并。某年级的月考成绩分散在“月考语文成绩.xls”“月考英语成绩.xls”两个文件中,为了统计学生考试成绩的总分,需要使用记录集连接组件,将成绩数据合并在一起。

2022-10-21 17:45:30 156

原创 第七章数据的加载机制(增量加载)

增量加载是指目标表仅加载源数据表中新增和发生变化的数据。优秀的增量加载机制不但能够将业务系统中的变化数据按一定的频率准确地捕获到并加载到目标表中,同时还不会对业务系统造成太大的压力,也不会影响现有业务。通过Kettle工具将数据表incremental_source中的数据增量加载到数据表incremental_target中。

2022-10-19 12:33:09 326

原创 第七章数据的批量加载

通过Kettle工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中。

2022-10-19 11:58:01 225

原创 第七章数据的加载机制(全量加载)

从技术角度来说,全量加载比增量加载的操作要简单很多,即只需要在数据加载之前,将目标数据表进行清空,再将源数据表中的数据全部加载到目标表中。通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中。

2022-10-19 11:22:41 380

原创 第六章数据的商务规则计算

通过Kettle工具对数据表company_new中的数据进行商务规则的计算,即对数据表company_new中的数据进行相关处理和计算,从而得出手机在各省份的日销售额,并存储于数据表regional_sales中。

2022-10-19 10:45:10 221

原创 第六章数据粒度的转换

通过Kettle工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中

2022-10-16 17:23:56 194

原创 第六章不一致数据的转换

通过Kettle工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中。

2022-10-16 16:17:14 160

原创 第六章kettle使用(多数据源合并)

通过Kettle工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。

2022-10-16 15:44:26 742 1

原创 第五章kettle(数据规范化处理)

数据规范化处理

2022-10-08 17:51:17 1060

原创 第五章kettle基本操作(数据一致性处理)

通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。

2022-10-08 17:37:33 628

原创 第五章kettle(修补异常值)

通过Kettle工具,替换和修改数据表interpolation_data中的异常值。

2022-10-06 21:14:04 744

原创 第五章kettle(删除包含异常值的记录)

通过Kettle工具,去除文件temperature.txt中的异常值。

2022-10-06 20:39:42 525

原创 第五章kettle基本操作(填充缺失值)

通过Kettle工具,使用平均值填充法对文件people_survey.txt中的缺失值进行填充。

2022-10-06 20:20:36 1306

原创 第五章kettle基本操作(去除缺失值)

通过Kettle工具,去除原始数据集revenue.txt中的缺失值。

2022-10-06 20:10:11 2945

原创 第五章kettle的基本操作(不完全去重)

通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。

2022-10-06 19:54:40 818

原创 第五章kettle基本操作(完全去重)

完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。例如,现在有两个表格分别记录的不同年份的用户信息,现要求合并统计所有用户信息,发现合并后的表格存在完全重复的数据,为了便于后期更加方便地使用这些用户数据,通常情况下会对数据进行去重操作。

2022-10-06 19:36:58 1256 2

原创 第四章kettle(JSON文件的数据抽取)

通过Kettle工具抽取JSON文件json_extract.json中的数据并保存至数据库extract中的数据表json中。

2022-10-05 21:57:38 1148

原创 第四章kettle基本操作(XML文件的数据抽取)

通过Kettle工具抽取XML文件xml_extract.xml中的数据并保存至数据库extract的数据表xml中

2022-10-05 21:37:52 2498

原创 第四章kettle的基本功能(CSV文件的抽取)

通过Kettle工具抽取CSV文件csv_extract.csv中的数据并保存至数据库extract的数据表csv中

2022-10-05 21:03:06 626

原创 第四章kettle的基本功能(TSV文件的抽取)

通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。

2022-10-04 17:10:39 598

原创 第三章kettle的基本功能(发送邮件)

通过Kettle工具的作业来实现发送邮件。

2022-10-02 11:36:02 1804

原创 第三章kettle的基本功能(转换管理)

通过Kettle工具的转换来实现将一张数据表中的两个字段进行拼接,然后插入到另一张数据表中。即将数据表personal_a中的字段surname和name进行拼接,然后插入到数据表personal_b。

2022-10-02 10:57:16 966 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除