假设空间机器学习

最新推荐文章于 2025-05-12 12:12:33 发布

原创最新推荐文章于 2025-05-12 12:12:33 发布 · 638 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

机器学习专栏收录该内容

5 篇文章

订阅专栏

归纳(induction)：从特殊到一般的“泛化”(generalization)过程，即从具体的事实归结出一般性规律；

演绎(deduction)：从一般到特殊的“特化”(specialization)过程，即从基础原理推演出具体状况.例如，在数学公理系统中，基于一组公理和推理规则推导出与之相洽的定理，这是演绎；

而 “从样例中学习”显然是一个归纳的过程，因此亦称 “归纳学习 ”(inductive learning).

广义的归纳学习大体相当于从样例中学习,

狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为“概念学习 ”或 “概念形成”.

概念学习技术目前研究、应用都比较少，因为要学得泛化性能好且语义明确的概念实在太困难了，现实常用的技术大多是产生“黑箱”模型.然而，对概念学习有所了解,有助于理解机器学习的一些基础思想.

概念学习中最基本的是布尔概念学习，即对 “是” “不是”这样的可表示为 0/1布尔值的目标概念的学习.举一个简单的例子，假定我们获得了这样一个训练数据集：

这里要学习的目标是“好瓜”.暂且假设 “好瓜”可由 “色泽” “根蒂” “敲声”这三个因素完全确定，换言之，只要某个瓜的这三个属性取值明确了, 我们就能判断出它是不是好瓜.于是，我们学得的将是“好瓜是某种色泽、某种根蒂、某种敲声的瓜”这样的概念,用布尔表达式写出来则是“好瓜分(色电了呼常会普泽=?) A (根蒂=?) A (敲声= ? ) " ，这里表示尚未确定的取值 ,而我们的任合范或务就是通过对表1.1的训练集进行学习，把确定下来 .

读者可能马上发现，表 1.1第一行： “(色泽二青绿)A (根蒂=蜷缩)A (敲声=浊响)”不就是好瓜吗？是的，但这是一个已见过的瓜,别忘了我们学习的目的是“泛化”，即通过对训练集中瓜的学习以获得对没见过的瓜进行判断的能力.如果仅仅把训练集中的瓜“记住”，今后再见到一模一样的瓜当然可判断,但是,对没见过的瓜,例如“（色泽=浅白）A （根蒂= 蜷缩）A （敲声= 浊响）” 怎么办呢？

我们可以把学习过程看作一个在所有假设（hypothesis）组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”（班）的假设，即能够将训练集中的瓜判断正确的假设.假设的表示一旦确定，假设空间及其规模大小就确定了. 这里我们的假设空间由形如“（色泽= ?）A （根蒂= ?）A （敲声= ?）" 的可能取值所形成的假设组成.例如色泽有“青绿” “乌黑” “浅白”这三种可能取值; 还需考虑到，也许 “色泽”无论取什么值都合适，我们用通配符来表示 , 例如 “好瓜》（色泽= *）A （根蒂= 蜷缩）A （敲声= 浊响）”，即 “好瓜是根蒂蜷缩、敲声浊响的瓜，什么色泽都行”. 此外，还需考虑极端情况：有可能 “好瓜”这个概念根本就不成立，世界上没有“好瓜”这种东西;我们用0 表示这个假设.这样，若 “色泽” “根蒂” “敲声”分别有3、2、2 种可能取值，则我们面临的假设空间规模大小为4 x 3 x 3 + 1 = 37. 图 1.1直观地显示出了这个西瓜问题假设空间.