(一)ETL介绍
“ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
在Transform的过程中,我们经常会做数据清洗这个操作。它是指对采集到的原始数据进行预处理,以去除错误、重复、不完整或不一致的数据,使数据符合分析要求的过程。它在整个数据分析和数据处理流程中处于非常重要的位置,因为数据质量的好坏直接影响到后续分析结果的准确性和可靠性。
清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。
(二)需求分析
我们有去除日志中字段个数小于等于11的日志。
(1)输入数据
(2)期望输出数据:每行字段长度都大于11。
需要在Map阶段对输入的数据根据规则进行过滤清洗,并不需要进行汇总。
(三)思路分析
map阶段:按行读入内容,对内容进行检查,如果字段的个数少于等于11,就删除这条日志(不保留)去除日志中字段个数小于等于11的日志内容。
对于map函数来说,它的输入参数是:<偏移量,第一行的内容>
<偏移量,每一行的内容> → <刷选后的没一行的内容,null>
对于reduce函数来说,它的输入参数是:<刷选后的每一行的内容,[null,null,...]>,对于我们的需求来说,并不需要这个阶段。
————————————————
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.youkuaiyun.com/2301_81748087/article/details/146948727