说明:本文是自己对周志华 2016 年新书《机器学习》中习题的解答,难免有误欢迎指正。习题 1.4 的“没有免费的午餐定理”证明可点击这篇博文。
习题 1.1 若表 1.1 只包含 1 和 4 两个样例,试给出相应的样本空间。已知色泽有两种取值,根蒂和敲声分别有三种取值。
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
首先说明概念1:版本空间(version space)是概念学习中与已知数据集一致的所有假设(hypothesis)的子集集合。即是版本空间是假设空间中于样本满足一致的“假设集合”, 是基于样本决定的。
SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary)。
对于二维空间中的“矩形”假设(如图),绿色代表正例,红色代表负例。学习过程中,可以 不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,即学得结果。如图 GB 与 SB 所围成的区域中的矩形即为版本空间。
解答:由于色泽有两种取值,根蒂和敲声分别有三种取值,再各自加上“通配”(即取什么值都无关紧要)这一项,一共是 (2+1)×(3+1)×(3+1)=48 种取值,另外还有一种取值是“好瓜这个概念根本不成立”即空集。故假设空间大小为 48+1=49。现在根据已有样本 1 和 4,可以排除掉假设空间中所有“色泽 ≠ 青绿”或“根蒂 ≠ 蜷缩”或“声响 ≠ 浊响”的项,以及由于有样本 1 即好瓜的存在,排除空集那一项,所以得到的版本空间大小为 8,用合取式表示则是以下 8 种取值: