数据挖掘原理与实践学习（2）_第二章数据处理基础是哪本书-优快云博客

本文概述了数据挖掘的基础知识，介绍了数据的概念、类型、属性分类以及数据集的特性。详细阐述了记录数据、基于图形的数据和有序数据集的特点，并讨论了数据统计特性和中心趋势、离散程度度量。

大家好，我又回来啦！在本文中，我将对《数据挖掘原理与实践》的第二章《数据处理基础》进行总结和归纳，希望大家多多支持，谢谢！

什么是数据？

数据是数据库存储的基本对象。并非说单纯的1、2、3等数字才是数据，数据的内涵随着时间的推移而扩展。

广义地，可以把数据理解为记录在介质中的信息，是数据对象及其属性的集合，其表现形式可以是数字、符号、文字、图像或计算机代码等。

理解数据不仅要了解数据的表现形式，还需要了解数据的语义。数据的语义是指对数据含义的说明，是数据对象所有属性的集合。而数据集则是具有相同属性的数据对象的集合。属性（也称为特征、维或字段）是指一个对象的某方面性质或者特性。一个对象通过若干属性来刻画。

相应的，根据属性具有的不同性质，属性可以分为4种：标称（Nominal）、序数（Ordinal）、区间（Interval）和比率（Ratio）。

标称属性：其属性值只提供足够的信息以区分对象，这类属性值没有实际意义，如三个对象可以用甲乙丙，也可以用ABC来区分。
序数属性：其属性值提供足够的信息，以区分对象的序，如成绩等级（优、良、中、及格、不及格）。
区间属性：起属性值之间的差是有意义的，如日历日期、摄氏温度。
比率属性：其属性值之间的差和比率都是有意义的，如长度、时间、速度等。
而属性可以进一步归类为两种：

①标称和序数属性：统称为分类的（Categorical）或定性的（Qualitative）属性，取值为集合。

②区间和比率属性：统称为数值的（Numeric）或定量的（Quantitative）属性，取值为区间。*定量属性可以是整数值或者连续值。

数据集的类型

先说一下数据集的三大特性，接着总结数据集的类型。

数据集三大特性：

维度（Dimensionality）：指数据集中的对象具有的属性个数总和。根据数据集的维度大小，数据集可以分为高、中、低维数据集。
稀疏性（Sparsity）：指在某些数据集中，有意义的数据非常少，对象在大部分属性上的取值为0，非零项不到1%。
分辨率（Resolution）：可以在不同的分辨率或者粒度下得到数据，而且在不同的分辨率下对象的性质也不同。数据的模式依赖于分辨率，分辨率过高或者过低，都得不到有效的模式，针对具体应用，需要选择合适的分辨率或粒度。

为了方便起见，我们将数据集分为三类：记录数据、基于图形的数据和有序的数据集。

（1）记录数据

一般的数据挖掘任务都是假定数据集是记录（数据对象）的集合，每个记录都由相等数目的属性构成。记录之间或属性之间没有明显的联系。记录数据通常存放在平面文件或关系数据库中。根据数据挖掘任务的不同要求，记录数据可以有不同种类的变体。

①事物数据（购物篮数据）

事物数据是一种特殊类型的记录数据，其中每个记录涉及一个项的集合。典型的事务数据如超市零售数据，顾客一次购物所购买的商品的集合就构成一个事务，而购买的商品就是项。

②数据矩阵（Data Matrix）

如果一个数据集中的所有数据对象都具有相同的数值属性集，则该数据对象可以看做多维空间的点（向量），其中每一维代表描述对象的不同属性。这样的数据对象集可以用一个n×m的矩阵来表示，其中n表示行数，一个对象一行，m表示列数，一个属性一行（当然可以反过来）。数据矩阵是记录数据的变体，可以使用标准的矩阵操作对数据进行变换和操纵。

（2）基于图形的数据

有时，图形可以方便而有效地表示对象之间的关系。我们考虑两种特殊情况：图形捕获数据对象之间的联系，数据对象本身用图形表示。

①带有对象之间联系的数据：对象之间的联系常常携带重要的信息。

②具有图形对象的数据：如果对象具有结构，即对象包含具有联系的子对象，则这样的对象常常用图表示。

（3）有序数据

对于某些数据类型，属性具有涉及时间或空间序的联系。

①时序数据（sequential data）或时态数据（temporal data），可以看做记录数据的扩充，其中每个记录包含一个与之相关的时间，通常存放包含时间相关属性的关系数据。这些数据可能涉及若干时间标签，每个都有不同意义。

②序列数据（sequence data），是一个数据集合，是个体项的序列，如词或字母的序列，用来存放具有或者不具有具体时间概念的有序时间的序列。

③时间序列数据（time series data），是一种特殊的时序数据，其中每个记录都是一个时间序列，即一段时间的测量序列，如股票交易，库存控制和自然现象等。在分析事假序列数据时，重要的是考虑时间自相关，即如果两个测量的时间很接近，侧这些测量的值非常相似。

④空间数据（spatial data），包含涉及空间的数据，如地理信息系统、医学图像等。

⑤流数据（stream data），是一种可以动态地从观测台流进和流出的数据，具有如下特点：海量甚至是无限的，动态变化的，以固定的次序流进和流出，只允许一遍或少数几遍扫描，要求快速响应时间。

数据统计特性

对于许多数据预处理任务，人们希望知道关于数据的中心趋势和离散程度特征。中心趋势度量包括均值、中位数、众数和中列数（midrange），数据离散程度度量包括四分位数（quartiles）、四分位数极差（interquartiles，IQR）和方差（variance）等。

数据的中心度量

均值：设 $x_{1},x_2,...,x_N$ 是N个值的集合，则该值集的均值定义为：

$\bar{x}=\tfrac{\sum_{i=1}^{N}x_{i} }{N}=\tfrac{x_{1}+x_{2}+...+x_{N}}{N}$

有时，集合中每个值 $x_{i}$ 与一个权值 $w_{i}$ 相关联，i=1，......，N。权值反映对应值的显著性、重要性或者出现频率。这时就应当使用加权平均数（weighted arithmetic mean）：

尽管均值是描述数据集的最常用的单个度量方法，但是均值的主要问题是对极端值（如离群值）很敏感，即使少量极端值也可能影响均值。在这里推荐大家使用截断均值：

截断均值：指定0~100间的百分位数p，丢弃高端和低端（p/2）%的数据，然后用常规方法计算均值，所得结果即是截断均值。标准均值是对应于p=0%的截断均值。

中列数（midrange）也可以用来评估数据集的中心趋势，是数据集的最大和最小值的平均值。

而百分位数（percentile）则有如下性质：

在数值序下，数据集合的第k个百分位数是具有如下性质的 $x_{i}$ ：百分之k的数据项位于或低于 $x_{i}$ 。中位数是第50个百分位数。除中位数外，最常用的百分位数是四分位数（quartile）。第一个四分位数记为 $Q_{1}$ ，是第25个百分位数；第三个四分位数记为 $Q_{3}$ ,是第75个百分位数。四份位数（包括中位数）给出分布的中心、离散和形状的某种指示。第一个和第三个四分位数之间的距离是分布的一种简单度量，给出被数据的中间一半所覆盖的范围。该距离被称为中间四分位数极差IQR，定义为 $IQR=Q_{3}-Q_{1}$ 。

数据散布程度度量

最简单的散布度量是极差（range），其定义为最大值和最小值之间的差异。给定一个属性x，它具有m个值{ $x_{1},x_{2},...,x_{m}$ },x的极差定义为：

$range(x)=max(x)-min(x)=x_{m}-x_{1}$ 。

尽管极差标识极大散布，但是如果大部分值都击中在一个较窄的范围内，极端值的个数相对较少，则可能引起误解。此时采用方差作为方差作为散布的度量更可取。属性x的方差记为 $S_{x}^{2}$ ，其定义如下：

$variance(x)=S_{x}^{2}=\tfrac{1}{m-1}\sum_{i=1}^{m}(x-\bar{x})^{2}$

以上就是第二章的前面的内容，在数据结构（3）会讲解数据预处理、相似性度量这两个重头大戏，并且会有习题，希望大家能够多多支持。