本文简单介绍机器学习中数据的属性类型,针对数据的不同属性类型需要不同的数据预处理方法。
数据集由数据对象组成,一个数据对象代表一个实体。数据对象又称样本、实例、数据点或对象。属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。属性有不同类型:标称属性(nominal attribute)、二元属性(binary attribute)、序数属性(ordinal attribute)、 数值属性(numerical attribute)、离散属性与连续属性。
1.标称属性(nominal attribute)
标称属性的值是一些符号或实物的名称,每个值代表某种类别、编码或状态,所以标称属性又被看做是分类型的属性(categorical)。这些值不必具有有意义的序,并且不是定量的。
2.二元属性(binary attribute)
二元属性是一种标称属性,只有两个类别或状态:0或1,其中0常表示不出现,1表示出现。如果将0和1对应于false和true,二元属性则为布尔属性。
3.序数属性(ordinal attribute)
**序数属性可能的取值之间具有有意义的序或秩评定,**但相继值之间的差是未知的。例如,学生的成绩属性可以分为优、良、中、差四个等级;某快餐店的饮料杯具有大、中、小三个可能值。然而,具体“大”比“中”大多少是未知的。
**序数属性可用于记录不能客观度量的主观质量评估。**因此,序数属性常用于等级评定调查。如某销售部门客户服务质量的评估,0表示很不满意,1不太满意,2表示中性,3表示满意,4表示非常满意。
通过数据预处理中的数据规约,序数属性可以通过将数据的值域划分成有限个有序类别,将数值属性离散化而得到。应注意的是,