CC-Betsy-优快云博客

原创第8章综合案例—构建DVD租赁商店数据仓库

第八章综合案例—构建DVD租赁商店数据仓库

2022-11-20 16:46:26 3225

数据粒度转换：业务系统一般存储非常明细的数据，而数据仓库中数据是用来分析的，不需要非常明细的数据。一般情况下，会将业务系统数据按照数据仓库粒度进行聚合，这个过程就被称为数据粒度的转换。例如，将城市转换成省份或者直辖市。通过Kettle工具将对数据表company进行数据粒度的转换操作，即将数据表company中字段为salesArea的数据都统一成省级份，并存储到新数据表company_new中。

2022-10-14 21:31:25 2291

原创 Kettle-7.0安装

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、 Unix.上运行，绿色无需安装，数据抽取高效稳定。Kettle中文名称叫水壶，该项目的主程序员MATT希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。

2022-09-21 17:06:19 1342 1

原创获取网页：“https://www.5iai.com/#/jobList”中的所有省份城市城区信息及其邮编，并将结果存储于excel文件中。

爬取https://www.5iai.com/#/jobList网站地区信息和邮编

2024-03-08 10:27:42 276 1

原创爬取豆瓣网图书TOP250的数据（一共250本书），书名、链接、作者、出版社、出版时间、价格、评分、评语

爬取豆瓣网图书TOP250的数据（一共250本书），书名、链接、作者、出版社、出版时间、价格、评分、评语。

2024-02-28 21:57:36 1228 1

原创 XML文件的数据抽取

XML是一种可扩展标记语言，也是一种元标记语言，所谓“元标记”就是开发者可根据自己的需要自定义标记。XML是一种很像HTML的标记语言，但是它们也有很大的区别，譬如XML被设计出来主要用于传输和存储数据，其焦点是数据的内容，而HTML被设计出来主要用于显示数据，其焦点是数据的外观；XML中的标签是没有被预定义的，都是由XML文档的创作者发明的，HTML中的标签是预定义的，其文档中使用的标签必须是在HTML标准中定义过的，对于用户自己定义的标签是不可使用的。

2022-11-25 21:45:54 3212

原创第四章 Tsv文件的抽取

TSV是Tab-separated values的缩写，即制表符分隔值。使用制表符分隔数据字段的文件被称为制表符文件。制表符文件中的数据以表格结构储存，每一行储存一条记录，每条记录的各个字段间使用制表符分隔。大多数的操作系统和常用文本编辑器中，按一次“Tab”键表示默认插入一个制表符。通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。

2022-11-25 19:26:11 873

原创 Kettle-数据的迁移和装载

Kettle-迁移和装载，主要实现Excel输入，表输出，插入更新。

2022-10-28 17:49:57 1619

原创 Kettle第五章-高级转换

kettle高级转换，记录集连接，多路数据合并，公式转换。

2022-10-21 21:08:58 5542

原创 kettle-数据加载&全量加载&增量加载&批量加载（第七章）

数据的预处理过程，除了包括数据抽取、数据本身的清洗与检验以及数据转换操作，还包括数据加载操作，数据加载是数据预处理过程的最后一个步骤，主要是负责将清洗检验、转换后的高质量数据加载到目标数据库中。数据的加载机制与数据的抽取机制相类似，数据的加载机制可以分为全量加载和增量加载。其中，全量加载是指将目标数据表中的数据全部删除后，进行数据加载的操作；而增量加载是指目标表只加载源数据表中变化的数据，其中变化的数据包含新增、修改和删除的数据。

2022-10-19 15:44:01 1260

原创 6.4.数据的商务规则计算（第6章）

不同的企业，有着不同的业务规则和数据指标，这些指标应该计算完存储到数据仓库中，供企业决策者进行分析，从而得出战略性的企业决策。例如，A公司和B公司的总公司想要得知各省份的手机日销售额，这就属于一个商务规则。

2022-10-19 13:41:04 554

原创不一致的数据源转换

kettle实现不一致的数据源转换

2022-10-12 17:13:18 990 1

原创 Kettle-多数据源合并

kettle实现多数据源的合并

2022-10-12 16:35:48 1679

原创第五章 Kettle数据的清洗与检验

kettle完全去重kettle实现缺失值填充

2022-10-02 11:13:33 1932 1

原创第四章 CSV文件抽取和JSON文件抽取

kettle抽取csv文件、json文件

2022-10-01 21:20:25 748

原创 Kettle第三章邮件发送

Kettle实现邮件的发送

2022-10-01 18:09:18 1246

原创 Kettle工具的基本使用（第三章）

Kettle基本工具的基本使用，字段拼接。

2022-10-01 14:20:13 1504

原创 Java web实现简单注册界面

Java web 注册页面，实现了邮箱、电话号、空值检验。

2022-09-25 23:07:26 483

原创 kettle web数据抽取

用kettle进行网页数据的抽取

2022-09-24 22:53:15 1928

python基础语法+基础知识

主要包含了python基础语句、数据容器、面向对象等方面的基础知识

2024-06-26

使用PyQt5实现的五子棋对战游戏

游戏实现了人机对战，双人对战，并加入了音乐效果

2024-03-10

大数据+网络爬虫+数据可视化

本项目利用了网络爬虫技术，获取豆瓣电影《周处除三害》的影评信息进行数据分析，主要包括数据爬取、数据处理、数据可视化、LDA主题模型几部分

2024-03-08

京东商城华为WATCH 4评论数据爬取及可视化分析

资源主要包括京东商城华为WATCH4数据爬取、数据清洗、可视化以及LDA模型建立进行情感分析，运用者需更改代码里面文件路径为自己的即可