学习笔记|数据挖掘中的数据

本文是《数据挖掘:概念与技术》第二章的总结,涵盖了数据对象(如患者、学生)及其属性(标称、二元、序数、数值),并介绍了数据的基本统计描述(中心趋势、散布、可视化)和相似性度量方法(标称、二元、数值、序数属性)。此外,还讨论了混合类型属性的相异性计算和余弦相似性在文档比较中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇笔记是《数据挖掘:概念与技术》第2章的小结。

数据对象和属性

一个数据对象代表一个实体,如医疗数据库中,对象可以是患者,在大学数据库中,对象可以是学生、老师、课程。数据对象又称为样本、实例、数据点。

属性是一个数据字段,表示数据对象的一个特征,一个数据对象可以有多个属性。属性又称为维、特征、变量。属性类型可以是标称的、二元的、序数的或数值的,由这个属性可能具有的值的集合所决定。

1、标称属性

它的值是一些符号或事物的名称,表示类别、编码、状态,是枚举的。

2、二元属性

只有0和1,它的意义可以是对称的(同等重要、地位一样)或非对称的(分轻重、地位不一样)

3、序数属性

有意义的序列或秩评定。相继值之间的差是未知的。可以把数值量的值域划分成有限个有序类别,从而成为序数属性。

4、数值属性

用整数或实数值表示,可度量。

(1)区间标度属性

用相等的单位尺度度量,值有序,允许比较和定量评估值之间的差,但是不能用比率谈论这些值。例如:温度

(2)比率标度属性

具有固定零点的数值属性,可以说一个值是另一个的倍数。例如:速度

5、离散属性、连续属性

离散属性具有有限或无限个值,可以用或不用整数表示。

如果属性不是离散的,则它是连续的。

数据的基本统计描述

数据的基本统计描述可以用来识别数据的性质,凸显哪些数据应该视为噪声或离群点。

1、中心趋势度量:度量数据分布的中部或中心位置

均值、中位数、众数、中列数

2、数据的散布:研究数据如何分散

极差、四分位数、四分位数极差、五数概括、盒图、方差、标准差

3、数据可视化的形式

条形图、饼图、线图、分位数图、分位数-分位数图、直方图、散点图

4、数据可视化的技术

基于像素的技术、几何投影可视化技术、基于图符的可视化技术、层次可视化技术、标签云

可视化除了数据可视化外,也可用于表现挖掘过程、从挖掘方法得到的模式,以及用户与数据交互。

数据的相似性和相依性的度量方法

首先给出两种矩阵:数据矩阵、相异性矩阵

数据矩阵(二模矩阵):行代表对象,列代表属性

                                                                       

数据矩阵

 

相异性矩阵(单模矩阵):d(i,j)是对象i和j之间的相异性度量。许多聚类和最近邻算法都在相异性矩阵上运行。数据矩阵可转化为相异性矩阵。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值