【数据挖掘导论】——数据类型

数据挖掘中,数据类型至关重要,它决定了分析方法。数据集的属性包括定量与定性,数据质量、预处理、数据联系分析是关键步骤。属性类型如标称、序数、区间和比率,以及离散和连续属性,对分析有直接影响。数据集分为记录数据、图形数据和有序数据,各具特性如维度、稀疏性和分辨率。数据预处理常用于降低维度和处理非对称属性,以提升分析效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据类型

数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘的研究也是为了适应新的应用领域和新的数据类型。

数据的质量
数据通常远非完美,尽管大部分的数据挖掘技术都容忍不完美的数据,但注重理解和提高数据质量将是改进精确分析结果的重要途径之一。

使数据适合挖掘的预处理步骤
通常,原始数据必须经过加工才能适合分析。而加工处理一方面是提高数据的质量,另一方面让数据更好的适应特定的数据挖掘技术或者工具。

根据数据联系分析数据
数据分析的一种方法是找出数据对象之间的联系,之后使用这些联系而不是数据对象本身进行其余的分析。

通常,数据集可以看作数据对象的集合。数据对象可以是:记录,点,向量,模式等。数据对象用一组刻画对象基本特性的属性描述,如:变量,字段,特征或者维。

属性与度量
什么是属性:
属性(attribute)是对象的性质或者特性,它因对象而异或随着时间变化而变化。追根溯源,属性并非数字或符号。然而为了讨论和分析对象的特性,我们赋予了它们数字和符号。为了用一种明确定义的方式做到这点,我们需要测量标度。

测量标度(mreasurement scale)是将数值或符号值与对象的属性相关联的规则(函数)。形式上,测量过程是使用测量标度将一个值与一个特定对象的特定属性相关联。虽然说的有些抽象。但在生活中,我们无时无刻的进行测量过程,如:上公交车,会看有没有剩余的座位能坐等。这些情况下,都
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值