数据挖掘导论 第2章 数据类型

本文详细介绍了数据挖掘中数据类型的分类,包括标称、序数、区间和比率属性,以及离散和连续属性。强调了数据质量的重要性,如测量误差、噪声、偏倚和准确率。数据预处理的步骤如聚集、抽样、离散化等也被提及。此外,文章详细阐述了相似性和相异性的度量方法,如欧几里得距离、余弦相似度和Jaccard系数,以及如何处理不同类型的属性和异常值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第2章 数据类型

通常,数据集可以看作数据对象的集合。数据对象有时也叫做记录向量模式事件案例样本观测实体。数据对象用一组刻画对象基本特性的属性描述。属性有时也叫做变量特征字段特征

 

属性(attribute)是对象的性质或特征,它因对象而异,或随时间而变化。

测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)。

 

四种属性类型:标称(nominal)序数(ordinal)区间(interval)比率(ratio)

标称和序数属性统称分类的(categorical)定性的(qualitative)属性。区间和比率属性,统称定量的(quantitative)数值的(numeric)属性。

 

用值的个数描述属性

离散的(discrete):离散属性具有有限个值或无限可数个值。这样的属性可以是分类的,也可以是数值的,如计数。二元属性(binary attribute)是离散属性的一种特殊情况。

连续的(continuous):连续属性是取实数值的属性。

 

非对称的属性

对于非对称的属性(asymmetric attribute),出现非零属性值才是重要的。

 

数据集的一般特性:维度稀疏性分辨率

维度(dimensionality):数据集的维度是数据集中的对象具有的属性数目。

稀疏性(sparsity):有些数据集,如具有非对称特征的数据集,一个对象的大部分属性上的值都为0。

分辨率(resolution):常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同。

 

常将数据集类型分成三组:记录数据基于图形的数据有序的数据

 

数据质量

1、测量误差和数据收集错误

术语测量误差(measurement error)是指测量过程中导致的问题。一个常见的问题是:在某种程度上,记录的值与实际值不同。对于连续属性,测量值与实际值的差称为误差(error)

术语数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或不当地包含了其他数据对象等错误。

2、噪声和伪像

噪声是测量误差的随机部分。数据错误可能是更确定性现象的结果,如一组照片在同一地方出现条纹。数据的这种确定性失真常称作伪像(artifact)

3、精度、偏倚和准确率

精度(precision)(同一个量的)重复测量值之间的接近程度。精度通常用值集合的标准差度量。

偏倚(bias)测量值与被测量之间的系统的变差。偏倚用值集合的均值与测出的已知值之间的差度量。

准确率(accuracy)被测量的测量值与实际值之间的接近度。

4、离群点

离群点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值。我们也称其为异常(anomalous)对象或异常值。

区别噪声和离群点这两个概念是非常重要的。离群点可以是合法的数据对象或值。因此,不像噪声,离群点本身有时是人们感兴趣的对象。例如,欺诈和网络攻击检测中,目标就是从大量正常对象或事件中发现不正常的对象和事件。

5、遗漏值

6、不一致的值

7、重复数据

 

数据预处理:聚集抽样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值