这儿主要归纳一下,样本空间、假设空间、版本空间的定义,三者的联系与区别。
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
一:样本空间
上表中给出了四种实际存在的情况,也即是我们目前所能获得的训练集。样本空间的标准定义是:所有可能存在的、合理的、情况的集合。机器学习的主要工作就是寻找从属性空间(X)到标记空间(Y)的一个映射关系。说法很多,但可以认为Xi-Yi实际存在的一个组合就是一个样本,而所有样本的集合,就是样本空间。而上述的的训练集只是样本空间一个很小的采样。
二:假设空间
起初,我们并不能得到样本空间。只有样本空间的一个很小的子集,也就是上面的四条样本。但可以确定的是(目前姑且这样认为)每一条示例有三条属性,即一个瓜的好或不好,由三个属性确定,而每个属性有三个值。就拿西瓜的颜色来说,表中有青绿、乌黑,姑且加一种浅白(仅为演示何为假设空间),可以确定的是一个好瓜应该是青绿