数据类型
数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘的研究也是为了适应新的应用领域和新的数据类型。
数据的质量
数据通常远非完美,尽管大部分的数据挖掘技术都容忍不完美的数据,但注重理解和提高数据质量将是改进精确分析结果的重要途径之一。
使数据适合挖掘的预处理步骤
通常,原始数据必须经过加工才能适合分析。而加工处理一方面是提高数据的质量,另一方面让数据更好的适应特定的数据挖掘技术或者工具。
根据数据联系分析数据
数据分析的一种方法是找出数据对象之间的联系,之后使用这些联系而不是数据对象本身进行其余的分析。
通常,数据集可以看作数据对象的集合。数据对象可以是:记录,点,向量,模式等。数据对象用一组刻画对象基本特性的属性描述,如:变量,字段,特征或者维。
属性与度量
什么是属性:
属性(attribute)是对象的性质或者特性,它因对象而异或随着时间变化而变化。追根溯源,属性并非数字或符号。然而为了讨论和分析对象的特性,我们赋予了它们数字和符号。为了用一种明确定义的方式做到这点,我们需要测量标度。
测量标度(mreasurement scale)是将数值或符号值与对象的属性相关联的规则(函数)。形式上,测量过程是使用测量标度将一个值与一个特定对象的特定属性相关联。虽然说的有些抽象。但在生活中,我们无时无刻的进行测量过程,如:上公交车,会看有没有剩余的座位能坐等。这些情况下,都