
ETL
ETL
三花淡奶
这个作者很懒,什么都没留下…
展开
-
第八章 综合案例--构建DVD租赁商店数据仓库
数据库sakila中一共含有十六张数据表,分别是actor(演员)表、address(地址)表、category(类别)表、city(城市)表、country(国家)表、customer(顾客)表、film(电影)表、film_actor(演员所属电影)表、film_category(电影所属的类别)表、film_text(电影描述)表、inventory(库存)表、language(语言)表、payment(付款)表、rental(租赁)表、staff(工作人员)表以及store(商店)表。原创 2022-12-02 10:04:12 · 294 阅读 · 0 评论 -
第七章 数据的批量加载
通过Kettle工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中。原创 2022-11-08 16:11:20 · 146 阅读 · 0 评论 -
第七章 数据的加载机制--增量加载
通过Kettle工具将数据表incremental_source中的数据增量加载到数据表incremental_target中。原创 2022-11-08 15:46:41 · 135 阅读 · 0 评论 -
第七章 数据的加载机制--全量加载
通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中。原创 2022-11-08 15:23:20 · 179 阅读 · 0 评论 -
第六章 数据粒度的转换
通过Kettle工具将对数据表company进行数据粒度的转换操作,即将数据表company中字段为salesArea的数据都统一成省级份,并存储到新数据表company_new中。原创 2022-11-07 23:27:16 · 166 阅读 · 0 评论 -
第六章 数据的商务规则计算
通过Kettle工具对数据表company_new中的数据进行商务规则的计算,即对数据表company_new中的数据进行相关处理和计算,从而得出手机在各省份的日销售额,并存储于数据表regional_sales中。原创 2022-11-08 14:58:20 · 113 阅读 · 0 评论 -
第六章 不一致数据的转换
通过Kettle工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中。原创 2022-11-06 20:58:24 · 115 阅读 · 0 评论 -
第六章 多数据源合并
通过Kettle工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。原创 2022-11-06 11:46:21 · 134 阅读 · 0 评论 -
第五章 数据检验--数据规范化处理
通过Kettle工具,对数据进行检验操作。原创 2022-11-05 16:43:30 · 100 阅读 · 0 评论 -
第五章 数据检验--数据一致性处理
通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。原创 2022-11-05 15:31:23 · 114 阅读 · 0 评论 -
第五章 异常值处理--修补异常值
通过Kettle工具,替换和修改数据表interpolation_data中的异常值。原创 2022-11-05 15:06:36 · 226 阅读 · 0 评论 -
第五章 异常值处理--删除包含异常值的记录
通过Kettle工具,去除文件temperature.txt中的异常值。原创 2022-11-05 14:28:47 · 269 阅读 · 0 评论 -
第五章 缺失值处理--填充缺失值
通过Kettle工具,使用平均值填充法对文件people_survey.txt中的缺失值进行填充。原创 2022-11-05 11:20:31 · 283 阅读 · 0 评论 -
第五章 缺失值处理--去除缺失值
通过Kettle工具,去除原始数据集revenue.txt中的缺失值。原创 2022-11-04 22:17:41 · 135 阅读 · 0 评论 -
第五章 数据去重--不完全去重
通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。原创 2022-11-04 21:47:06 · 310 阅读 · 0 评论 -
第五章 数据去重--完全去重
通过Kettle工具,消除CSV文件merge.csv中完全重复的数据原创 2022-11-04 21:24:45 · 95 阅读 · 0 评论 -
第四章 抽取Web数据--JSON文件的数据抽取
通过Kettle工具抽取JSON文件json_extract.json中的数据并保存至数据库extract中的数据表json中。原创 2022-11-04 15:30:56 · 155 阅读 · 0 评论 -
第四章 抽取Web数据--XML文件的数据抽取
通过Kettle工具抽取XML文件xml_extract.xml中的数据并保存至数据库extract的数据表xml中。原创 2022-11-04 14:58:06 · 205 阅读 · 0 评论 -
第四章 抽取Web数据--HTML网页的数据抽取
通过Kettle工具抽取HTML网页的数据,并保存至数据库extract中的数据表html中。原创 2022-11-03 21:27:00 · 464 阅读 · 0 评论 -
第四章 抽取文本数据--CSV文件的抽取
通过Kettle工具抽取CSV文件csv_extract.csv中的数据并保存至数据库extract的数据表csv中。原创 2022-11-03 20:50:36 · 135 阅读 · 0 评论 -
第四章 抽取文本数据--TSV文件的抽取
通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。原创 2022-11-02 19:34:46 · 174 阅读 · 0 评论 -
第三章 转换管理
通过Kettle工具的转换来实现将一张数据表中的两个字段进行拼接,然后插入到另一张数据表中。即将数据表personal_a中的字段surname和name进行拼接,然后插入到数据表personal_b。原创 2022-10-31 17:18:36 · 172 阅读 · 1 评论