第一章
1.1 基本术语
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),
(色泽=浅白;根蒂=硬挺;敲声=清脆),...
-
数据集(data set):上述记录的集合。
-
示例(instance)、样本(sample):每条记录关于事件或对象(这里是西瓜)的描述。
-
属性(attribute)、特征(feature):反映事件或对象在某方面的的表现或性质的事项,如“色泽”、“根蒂”、“敲声”。
-
属性值(attribute value):属性上的取值,如“青绿”、“乌黑”。
-
属性空间(attribute space)、样本空间(sample space)、输入空间(input space):属性张成的空间。如:把“色泽”、“根蒂”、“敲声”作为三个坐标轴,则他们张成一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。
-
特征向量(feature vector):由于空间中的每个店对应一个坐标向量,因此我们也把一个示例称为一个特征向量。
一般地,令D={ x1,x2,...xm}D=\{x_1,x_2,...x_m\}D={ x1,x2,...xm}表示包含mmm个示例的数据集。
每个示例由ddd个属性描述,ddd称为样本xix_ixi的**“维数”(dimensionality)**
每个示例xi=(xi1;xi2;...;xid)x_i=(x_{i1};x_{i2};...;x_{id})xi=(xi1;