第六章 数据工程

目录

一、数据采集和预处理

1.数据采集(数据收集)

2.数据预处理

3.数据预处理方法

二、数据存储及管理

1.数据存储

数据存储首先要解决的是存储介质的问题。存储介质是数据存储的载体,是数据存储的基础。

存储形式

存储管理

2.数据归档

3.数据备份

4.备份策略

5.数据容灾

三、数据治理和建模

1.元数据:是关于数据的数据。

2.数据标准化

3.数据质量

4.数据模型

5.数据建模

四、数据仓库和数据资产

1.数据仓库(具体内容见第二章:信息技术发展)

2.数据资产管理(DAM)

3.数据资源编目

五、数据分析及应用

1.数据集成

2.数据挖掘

3.数据服务

4.数据可视化

六、数据脱敏和分类分级

1.数据脱敏

2.数据分类

3.数据分级


一、数据采集和预处理

1.数据采集(数据收集)

  • 采集的数据类型包括结构化数据、半结构化数据、非结构化数据。
  1. 结构化数据是以关系型数据库表管理的数据;
  2. 半结构化数据是指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、E-mail等。
  3. 非结构化数据是指没有固定模式的数据,如所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等。
  • 数据采集的方法可分为传感器采集、系统日志采集、网络采集和其他数据采集等
  1. 传感器采集是通过传感器感知相应的信息,并将这些信息按一定规律变换成电信号或其他所需的信息输出,从而获取相关数据,是目前应用非常广泛的一种采集方式。
  2. 系统日志采集是通过平台系统读取、收集日志文件变化。系统日志一般为流式数据,数据量非常庞大。
  3. 网络采集是指通过互联网公开采集接口或者网络爬虫等方式从互联网或特定网络上获取大量数据信息的方式,是实现互联网数据或特定网络采集的主要方式。数据采集接口一般通过应用程序接口(API)的方式进行采集。
  4. 还有一些其他的数据采集方式,如通过与数据服务商合作,使用特定数据采集方式获取数据。

2.数据预处理

  • 数据的预处理一般采用数据清洗的方法来实现。一般来说,数据预处理主要包括数据分析、数据检测和数据修正三个步骤。

3.数据预处理方法

  • 缺失数据的预处理

常见的方法

说明

删除缺失值

最常见的、简单有效的方法,当样本数很多的时候,并且出现缺失值的样本占整个样本的比例相对较小时,可以将有缺失的样本直接丢弃。

均值填补法

根据缺失值的属性相关系数最大的那个属性把数据分成几个组,再分别计算每个组的均值,用均值代表缺失数值。

热卡填补法

通过在数据库中找到一个与包含缺失值变量最相似的对象,然后采用相似对象的值进行数据填充。

缺失数据预处理的其他方法还有最近距离决定填补法、回归填补法、多重填补法、K-最近邻法、有序最近邻法、基于贝叶斯的方法等。

  • 异常数据的预处理

常见的方法

说明

分箱法

通过考察数据的“近邻”(即周围的值)来平滑处理有序的数据值,这些有序的值被分布到一些“桶”或“箱”中,进行局部光滑。一般而言,宽度越大,数据预处理的效果越好。

回归法

用一个函数拟合数据来光滑数据,消除噪声。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个属性,并且数据拟合到一个多维面。

  • 不一致数据的预处理:大部分的不一致情况都需要进行数据变换,定义一系列的变换纠正数据,有一些商业工具可以提供数据变换的功能,例如数据迁移工具和ETL工具等。
  • 重复数据的预处理:去除重复值的操作一般最后进行,可以使用Excel、VBA(Visual Basic 宏语言)、Python等工具处理。
  • 格式不符数据的预处理:需要将不同类型的数据内容清洗成统一类型的文件和统一格式,如将TXT、CVS、Excel、HTML以及PDF清洗成统一的Excel文件,将显示不一致的时间、日期、数值或者内容中的空格、单引号、双引号等情况进行格式的统一调整。

二、数据存储及管理

1.数据存储

数据存储首先要解决的是存储介质的问题。存储介质是数据存储的载体,是数据存储的基础。

存储介质

描述

磁带

存储成本低、容量大的存储介质,主要包括磁带机、自动加载磁带机和磁带库。缺点是速度比较慢。

光盘

(高密度盘)

常见的格式有VCD和DVD两种光盘具有三个显著特点:一是光盘上的数据具有只读性;二是不受电磁的影响;三是光盘容易大量复制。这些特点使得光盘特别适合用来对数据进行永久性归档备份。

磁盘

利用磁盘存储数据时,一般采用独立冗余磁盘阵列RAUD。

内存

内存是计算机用于存放CPU中的运算数据,与硬盘等外部存储器交换数据的硬件。内存的性能决定了计算机运行的稳定性、反应速率。内存数据会在断电后丢失所有数据。

闪存

是一种固态技术,使用闪存芯片来写入和存储数据,具有集内存的访问速度和存储持久性于一体的特点,常作为磁盘的替代品。

云存储

与将数据存储到本地硬盘驱动器或存储网络相比,云存储提供了一种可扩展的代替方案,将数据存储在异地位置,可通过公共互联网或者专用私有网络进行访问。

存储形式

存储形式

描述

文件存储

(文件级或基于文件的存储)

是一种用于组织和存储数据的分层存储方法。换言之,数据存储在文件中,文件被组织在文件夹中,文件夹则被组织在目录和子目录的子次结构下。

块存储

(块级存储)

对于需要快速高效和可靠地进行数据传输的计算场景,开发人员一般倾向于使用块存储。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值