大数据预处理架构和方法简介

最新推荐文章于 2024-11-12 09:24:43 发布

原创

最新推荐文章于 2024-11-12 09:24:43 发布 · 5.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #程序员 #编程语言 #编程

本文介绍了大数据预处理的整体架构，包括结构化和非结构化数据的处理方式，以及数据质量问题的分类。重点阐述了数据清洗、数据集成、数据转换和数据消减等方法，并探讨了数据质量的重要性，如数据的不完整、噪声和不一致性。数据清洗的处理过程包括填补遗漏、平滑噪声、识别异常和解决不一致。数据集成则面临命名不一致和数据冗余的问题。数据转换关注规格化操作，确保不同属性权重均衡。数据消减旨在减少数据规模而不影响挖掘结果。

数据预处理主要包括数据清洗（Data Cleaning）、数据集成（Data Integration）、数据转换（Data Transformation）和数据消减（Data Reduction）。本节在介绍大数据预处理基本概念的基础上对数据预处理的方法进行讲解。

大数据预处理整体架构

大数据预处理将数据划分为结构化数据和半结构化/非结构化数据，分别采用传统 ETL 工具和分布式并行处理框架来实现。总体架构如图 1 所示。

图 1 大数据预处理总体架构

结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证数据的一致性方面有天然的优势。

非结构化数据可以存储在新型的分布式存储中，如 Hadoop 的 HDFSo 半结构化数据可以存储在新型的分布式 NoSQL 数据库中，如 HBase。

分布式存储在系统的横向扩展性、存储成本、文件读取速度方面有着显著的优势。

结构化数据和非结构化数据之间的数据可以按照数据处理的需求进行迁移。例如，为了进行快速并行处理，需要将传统关系型数据库中的结构化数据导入到分布式存储中。

可以利用 Sqoop 等工具，先将关系型数据库的表结构导入分布式数据库，然后再向分布式数据库的表中导入结构化数据。

数据质量问题分类

数据清洗在汇聚多个维度、多个来源、多种结构的数据之后，对数据进行抽取、转换和集成加载。

在以上过程中，除了更正、修复系统中的一些错误数据之外，更多的是对数据进行归并整理，并储存到新的存储介质中。其中，数据的质量至关重要。

如图 2 所示，常见的数据质量问题可以根据数据源的多少和所属层次（定义层和实例层）分为 4 类。

1）单数据源定义层

违背字段约束条件（例如，日期出现 9 月 31 日）

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。