数据预处理主要包括数据清洗(Data Cleaning)、数据集成(Data Integration)、数据转换(Data Transformation)和数据消减(Data Reduction)。本节在介绍大数据预处理基本概念的基础上对数据预处理的方法进行讲解。
大数据预处理整体架构
大数据预处理将数据划分为结构化数据和半结构化/非结构化数据,分别采用传统 ETL 工具和分布式并行处理框架来实现。总体架构如图 1 所示。

图 1 大数据预处理总体架构
结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证数据的一致性方面有天然的优势。
非结构化数据可以存储在新型的分布式存储中,如 Hadoop 的 HDFSo 半结构化数据可以存储在新型的分布式 NoSQL 数据库中,如 HBase。
分布式存储在系统的横向扩展性、存储成本、文件读取速度方面有着显著的优势。
结构化数据和非结构化数据之间的数据可以按照数据处理的需求进行迁移。例如,为了进行快速并行处理,需要将传统关系型数据库中的结构化数据导入到分布式存储中。
可以利用 Sqoop 等工具,先将关系型数据库的表结构导入分布式数据库,然后再向分布式数据库的表中导入结构化数据。
数据质量问题分类
数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,对数据进行抽取、转换和集成加载。
在以上过程中,除了更正、修复系统中的一些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介质中。其中,数据的质量至关重要。
如图 2 所示,常见的数据质量问题可以根据数据源的多少和所属层次(定义层和实例层)分为 4 类。
1)单数据源定义层
违背字段约束条件(例如,日期出现 9 月 31 日)

本文介绍了大数据预处理的整体架构,包括结构化和非结构化数据的处理方式,以及数据质量问题的分类。重点阐述了数据清洗、数据集成、数据转换和数据消减等方法,并探讨了数据质量的重要性,如数据的不完整、噪声和不一致性。数据清洗的处理过程包括填补遗漏、平滑噪声、识别异常和解决不一致。数据集成则面临命名不一致和数据冗余的问题。数据转换关注规格化操作,确保不同属性权重均衡。数据消减旨在减少数据规模而不影响挖掘结果。
最低0.47元/天 解锁文章
9751

被折叠的 条评论
为什么被折叠?



