- 博客(19)
- 收藏
- 关注

原创 数据粒度的转换
数据粒度转换:业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。一般情况下,会将业务系统数据按照数据仓库粒度进行聚合,这个过程就被称为数据粒度的转换。例如,将城市转换成省份或者直辖市。通过Kettle工具将对数据表company进行数据粒度的转换操作,即将数据表company中字段为salesArea的数据都统一成省级份,并存储到新数据表company_new中。
2022-10-14 21:31:25
2126

原创 Kettle-7.0安装
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、 Unix.上运行,绿色无需安装,数据抽取高效稳定。Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
2022-09-21 17:06:19
1256
1
原创 获取网页:“https://www.5iai.com/#/jobList”中的所有省份城市城区信息及其邮编,并将结果存储于excel文件中。
爬取https://www.5iai.com/#/jobList网站地区信息和邮编
2024-03-08 10:27:42
236
1
原创 爬取豆瓣网图书TOP250的数据(一共250本书),书名、链接、作者、出版社、出版时间、价格、评分、评语
爬取豆瓣网图书TOP250的数据(一共250本书),书名、链接、作者、出版社、出版时间、价格、评分、评语。
2024-02-28 21:57:36
1015
1
原创 XML文件的数据抽取
XML是一种可扩展标记语言,也是一种元标记语言,所谓“元标记”就是开发者可根据自己的需要自定义标记。XML是一种很像HTML的标记语言,但是它们也有很大的区别,譬如XML被设计出来主要用于传输和存储数据,其焦点是数据的内容,而HTML被设计出来主要用于显示数据,其焦点是数据的外观;XML中的标签是没有被预定义的,都是由XML文档的创作者发明的,HTML中的标签是预定义的,其文档中使用的标签必须是在HTML标准中定义过的,对于用户自己定义的标签是不可使用的。
2022-11-25 21:45:54
3072
原创 第四章 Tsv文件的抽取
TSV是Tab-separated values的缩写,即制表符分隔值。使用制表符分隔数据字段的文件被称为制表符文件。制表符文件中的数据以表格结构储存,每一行储存一条记录,每条记录的各个字段间使用制表符分隔。大多数的操作系统和常用文本编辑器中,按一次“Tab”键表示默认插入一个制表符。通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。
2022-11-25 19:26:11
803
原创 kettle-数据加载&全量加载&增量加载&批量加载(第七章)
数据的预处理过程,除了包括数据抽取、数据本身的清洗与检验以及数据转换操作,还包括数据加载操作,数据加载是数据预处理过程的最后一个步骤,主要是负责将清洗检验、转换后的高质量数据加载到目标数据库中。数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。
2022-10-19 15:44:01
1125
原创 6.4.数据的商务规则计算(第6章)
不同的企业,有着不同的业务规则和数据指标,这些指标应该计算完存储到数据仓库中,供企业决策者进行分析,从而得出战略性的企业决策。例如,A公司和B公司的总公司想要得知各省份的手机日销售额,这就属于一个商务规则。
2022-10-19 13:41:04
482
京东商城华为WATCH 4评论数据爬取及可视化分析
2024-03-08
sakila样本数据库
2022-11-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人