数据集(data set)
记录的集合,如(色泽=青绿;根蒂=蜷缩;敲声=浊响)
示例(instance)
每条记录是关于一个事件或对象的描述,也称为样本。
属性(attribute)
反映事件或对象在某方面的表现或性质的事项,例如色泽,根蒂等,又称为特征(feature)。属性上的取值,如青绿,浊响等,称为属性值(attribute value)。
样本空间(sample space)
属性张成的空间,又称为属性空间(attribute space),或输入空间。
特征向量(feature vector)
假如将色泽,根蒂,敲声三个属性作为三个坐标轴,每个西瓜对应一个空间点(一个坐标向量),每个这种示例称为一个特征向量。
维数(dimensionality)
每个示例包含的属性个数。
学习(learning)
从数据中学得模型的过程,又称为训练(training)。
训练数据 (training data)
训练过程中使用的数据,其中每个样本称为一个训练样本(training sample)。
训练集(training set)
训练样本组成的集合。
标记(label)
关于示例结果的信息,比如判断一个西瓜是好瓜,那么这个西瓜便拥有了标记示例,这个西瓜便成了样例(example)。一般用 (xi,