七安☆-优快云博客

原创第八章综合案例——构建DVD租赁商店数据仓库

sakila样本数据库是MySQL官方提供的一个模拟DVD租赁商店管理的数据库。本章，我们将综合运用前面几章的知识，对数据库sakila中的数据进行清洗操作，从而构建一个DVD租赁商店数据仓库系统，即实现定期从源数据库sakila中抽取增量数据，转换成符合DVD租赁业务的数据，最后加载到目标数据仓库中。

2022-11-10 11:13:00 537

原创第八章（无人售货机零售项目实战）

无人售货机客户订单信息表记录着有关客户的订单信息。从客户的角度出发，分析客户订单信息表中的数据，了解客户订单状况，按照客户订单数据进行聚合计算，对客户订单消费金额从高到低进行排序，了解哪些客户的消费金额较多，并为这些客户提供更好的服务。

2022-11-02 11:51:15 2405

原创二进制原码，反码，补码，移码

二进制

2022-11-01 18:22:19 1749

原创第二章（简述不符合要求数据的清洗流程）

数据清洗，顾名思义就是将要用到的数据中重复、多余部分的数据进行筛选并清除；把缺失部分补充完整，并将不正确的数据纠正或者删除。最后整理成可以进一步加工、使用的数据。

2022-10-30 10:48:08 1113

原创第一章（简述数据清洗的基本流程）

由于海量数据的来源是广泛的，数据类型也是多而繁杂的，因此数据中会夹杂着不完整、重复以及错误的数据，如果直接使用这些原始数据，会严重影响数据决策的准确性和效率。因此，对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。

2022-10-30 10:41:18 5475 1

原创 SQL文件输出（kettle)

SQL文件是一个包含SQL语句的文本文件，后缀用“.sql”表示。SQL文件输出是将数据生成可执行的SQL语句，并装载至后缀为“.sql”的文本文件中。为了使用SQL语句生成数据，需要对MySQL的“demodb”数据库“2020年1月月考数学成绩”表中的数据，使用SQL文件输出组件，迁移和装载至“2020年1月_月考数学成绩.sql”文件。

2022-10-28 17:19:34 1103

原创文本文件输出（kettle）

文本文件输出是将数据装载到文本文件中。为了备份数据，需要对MySQL的“demodb”数据库“2020年1月月考数学成绩”表中数据，使用文本文件输出组件，迁移和装载至“2020年1月月考数学成绩.txt”文件。

2022-10-28 17:00:12 965

原创迁移和装载（Excel输出)

Excel输出是将数据装载至Excel文件的工作表中。为了统计分析联考的考试成绩，需要对“2020年1月联考成绩.csv”文件中的数据，使用Excel输出组件，迁移和装载至Excel文件中的工作表。

2022-10-26 12:20:40 141

原创迁移和装载（插入/更新）

插入/更新是对数据库中表的数据进行插入或更新操作。为了查询1班、2班学生考试分数的排名情况，需要对“2020年1月月考2班数学成绩.xls”文件中的数据，使用插入并更新组件，迁移并装载至MySQL的“demodb”数据库中的“2020年1月月考数学成绩”表。

2022-10-26 12:16:40 235

原创迁移和装载（表输出）

表输出是将数据装载至数据库的表中。为了方便使用数据库查询和统计学生的考试成绩，需要对“2020年1月月考1班数学成绩.xls”文件的数据，使用表输出组件，迁移和装载至MySQL中“demodb”数据库。

2022-10-26 12:09:24 235

原创获取变量（kettle）

在Kettle中，获取变量可以获得系统环境变量和用户自定义变量的值。某生产系统定时每天推送前两天的、名称格式为yyyyMMdd的数据文件，为了获得已设置好的日期变量并每天读取前两天的数据文件，需要使用获取变量组件，获取5.7小节中用户自定义的fileDate变量。

2022-10-26 11:21:56 3195

原创设置变量（kettle）

在Kettle中，读者可通过获得系统信息组件获得系统环境变量，也可以通过设置变量，定义虚拟机和任务中的变量。在项目中，经常利用生产环境或外围系统交互的FTP文件接口，获取固定格式的数据文件。

2022-10-26 11:05:56 5174

原创 JavaScript代码

Kettle提供用户界面，可采用JavaScript脚本编程修改数在某年级的“2020年4月月考成绩.xls”文件中，为了了解每个学生考试的总分，需要使用JavaScript代码组件，统计每个学生月考成绩的总分等。

2022-10-26 10:38:01 454

原创建立利用Janino计算Java表达式转换工程

在某年级的“2020年4月月考成绩.xls”文件中，为了了解学生的考试情况，需要采用利用Janino计算Java表达式组件，统计每个学生月考成绩的总分，并按照四舍五入的方法，计算每个学生的平均分。

2022-10-21 18:19:14 140

原创建立公式转换工程

公式是用来计算数据流中数据的表达式。公式可以是“A+B”这样的简单计算，也可以是类似“if/then”复杂业务逻辑判断的表达式。

2022-10-21 18:15:32 119

原创建立单变量统计转换工程

单变量统计是对数据进行单个变量的数据统计，以字段为单变量，可以分别对多个字段进行数据统计，统计类型有N（统计数量）、最小值、最大值、平均值、样本标准差、中位数和任意百分位数等。

2022-10-21 17:57:43 136

原创建立多路数据合并连接转换工程

记录集连接是两个记录集的合并，而3个及以上的记录集，采用多路数据合并连接的方式。多路数据合并连接英文名称为Multiway merge join，是对多个记录集的合并，效率更高，速度更快。

2022-10-21 17:53:49 359

原创建立记录集连接转换工程

记录集连接是将具有相同关键字字段的两个记录表进行合并。某年级的月考成绩分散在“月考语文成绩.xls”“月考英语成绩.xls”两个文件中，为了统计学生考试成绩的总分，需要使用记录集连接组件，将成绩数据合并在一起。

2022-10-21 17:45:30 195

原创第七章数据的加载机制（增量加载）

增量加载是指目标表仅加载源数据表中新增和发生变化的数据。优秀的增量加载机制不但能够将业务系统中的变化数据按一定的频率准确地捕获到并加载到目标表中，同时还不会对业务系统造成太大的压力，也不会影响现有业务。通过Kettle工具将数据表incremental_source中的数据增量加载到数据表incremental_target中。

2022-10-19 12:33:09 386