读书笔记
1.根据训练数据是否拥有标记信息,学习任务可大致分两类
学习任务 | 代表 |
---|---|
监督学习 | 分类,回归 |
无监督学习 | 聚类 |
2.学得模型适用于新样本的能力,称为“泛化”能力。
3.假设空间和版本空间
例题的假设空间由3部分组成
①色泽,根蒂,敲声分别有3,3,3种取值
②色泽,根蒂,敲声取什么值都合适,我们使用通配符“*”来表示,所以取值分别用1,1,1表示
③还有一种极端情况,有可能“ 好瓜 ”这个概念根本就不成立,世界上压根就没有“好瓜”这种东西,我们用Ø表示这个假设
所以假设空间大小规模
(3+1)×(3+1)×(3+1)+1=65
现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此有可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间(version space)”。
4.机器学习算法在学习过程中对于某种类型假设的偏好,称为“归纳偏好”(inductive bias)或简称为“偏好”
5.奥斯姆剃刀(Occam‘s razor)是一种常用的、自然科学研究中最基本的原则,则“若有多个假设与观察一致,则选最简单的那个”